Active Inference AI Systems for Scientific Discovery

用于科学发现的主动推理人工智能系统

https://arxiv.org/pdf/2506.21329

  • 概述: 作者Karthik Duraisamy提出了一种主动推理AI系统,旨在推动科学发现。论文强调通过弥合抽象、推理和现实三个差距,构建具有因果自监督基础模型、贝叶斯约束的符号/神经符号规划器以及持续知识图的AI系统。系统通过与高保真模拟器和自动化实验室的闭环交互,优化内部表征。
  • 推荐理由: 展示了主动推理在科学发现中的潜力,特别适合探索AI驱动的跨学科研究。



摘要:

人工智能的快速发展引发了人们对科学领域变革性影响的期待,然而当前系统在实现真正科学发现方面仍存在根本性局限。本文认为,要取得进展,关键在于弥合三个相互强化的鸿沟:抽象鸿沟、推理鸿沟和实证基础鸿沟。解决这些鸿沟的核心在于认识到两种互补的认知模式:一种是缓慢、迭代式的假设生成式“思考”——在可暂时违反物理定律的反事实空间中探索以发现新规律;另一种是快速、确定性的“推理”——遍历既有的知识图谱,检验与已知原理的一致性。在此循环中,抽象应表现为可操作的模型,支持反事实预测、因果归因和持续优化。本文提出若干设计原则(而非单一固定配方),以构建能在想象空间中推理、从现实世界中学习的系统:具备因果性和多模态的内部仿真模型;持久、能感知不确定性的科学记忆系统,可区分假设与已确立的结论;将形式化验证路径与计算及实验相结合。同时,本文主张,由于仿真与实验反馈本身固有的模糊性及底层不确定性,人类判断不可或缺——它不应仅作为临时脚手架,而应成为系统架构中的永久组成部分。评估标准必须衡量系统识别新现象、提出可证伪假设、高效引导实验项目走向真正发现的能力。

过去十年间,人工智能基础模型研究的演进呈现出清晰的阶段性能力跃迁。Transformer架构的出现[62]标志着以架构创新为主导的阶段,随后迅速被如GPT-2[55]等规模化演示所接替。大规模语言模型预训练技术成熟后,又转向“可用性转折点”:通过微调实现对齐与安全的对话型模型,使人机直接交互成为可能[47]。当前前沿则以推理模拟系统为特征,整合工具使用、草稿规划或程序合成目标[45]。第五个尚在萌芽的阶段指向自主智能体——能够分解任务、调用外部软件或实验室,并从反馈中学习。AI在科学领域的应用以压缩的时间节奏复现了上述各阶段转变。例如,SchNet将架构进步应用于量子化学[59];AlphaFold通过融合领域知识的规模化方法解决了蛋白质折叠预测问题[30];ChemBERTa[14]和FourCastNet[48]分别将语言与视觉领域的创新适配到分子与气候领域;AlphaGeometry则将推理中心化目标应用于符号数学[61]。近期研究[24, 7, 9]共同描绘出从单一专用预训练模型向工作流编排的转变趋势,暗示未来突破可能依赖于集成异构、领域感知的智能体,使其能够规划实验、引导仿真,并跨尺度迭代优化假设。

这凸显了科学发现面临的更深层挑战——必须在层层堆叠的抽象层级间进行推理:高层级上涌现的意外现象,正如局部大气方程无法直接预测大规模的厄尔尼诺模式。应对这一挑战,可能需要刻意设计具备内置分层推理机制的系统,配备专门组件以在还原论细节与涌现现象之间自由切换。一种有力的反对观点认为,此类抽象推理并非需显式工程化设计的特性,而是随规模足够大、数据足够多样自然涌现的属性。持此观点者或可援引AlphaGeometry[61]等工具为例,其复杂的形式化推理似乎从基于海量合成数据训练的基础模型中自然浮现。然而我们认为,尽管规模化可掌握训练分布中存在的任何模式——即使极其复杂——但其根本上仅限于学习相关性结构。科学发现则依赖于对干预与反事实逻辑的理解:当系统被有意扰动时会发生什么?这类知识无法从静态数据中被动观察获得,必须通过与现实世界或可靠的因果模型主动交互才能获取。“现实鸿沟”因此仍是纯规模化难以跨越的重大障碍。

在推测AI角色之前,审视当代科学发现的本质亦至关重要。现代科学已超越孤身天才探索自然奥秘的浪漫化想象。尽管科学发现的本质难以概括或定义,但可以肯定的是,当今许多发现源于大规模协作——从大型强子对撞机等仪器产生的PB级数据、分布式传感器网络或大规模计算中解析信息,更重要的是,与实验和仿真并行不断优化假设。在高能物理等领域,瓶颈已转向复杂性管理;而在数据受限领域(如聚变等离子体诊断),洞察力稀缺仍是主导问题;因此任何通用框架都必须兼顾这两种情形。即使我们拥有回答深刻问题的原始数据,往往仍缺乏认知架构以应对假设、相互作用和涌现现象的组合爆炸。这为AI系统创造了机遇——恰恰在人类认知失效之处发挥作用,即在极高维参数空间中保持一致性,识别并推理噪声数据中的微妙模式。在此必须强调,生成新颖假设或许相对容易[25]:真正的挑战在于在想象空间中快速评估某个假设或行动的影响。因此,AI系统必须配备丰富的世界模型,以快速探索广阔的假设空间,并与高效计算和实验集成,从而提供有价值的反馈。

基于上述背景,本文围绕三个相互关联的障碍展开:(i)抽象鸿沟,将低层次统计规律与科学家实际推理所依赖的机制性概念分隔开来;(ii)推理鸿沟,限制当前模型仅能进行相关性驱动的模式补全,而非因果性、反事实推理;(iii)现实鸿沟,使计算与最终裁决真理的实证反馈循环相隔离。核心论点是:科学发现要求对AI架构进行重新构想。未来的AI系统必须整合主动推理原则,在维持持久科学记忆的同时,与仿真世界和物理世界进行闭环交互。下文将逐一详述各鸿沟,随后提出一个整体性架构以综合应对这些挑战。

1 人工智能模型中的根本性鸿沟

从当前人工智能能力迈向真正科学发现的路径,被一系列相互关联的障碍所阻隔,这些障碍反映的是深层次的架构局限,而非单纯的规模化或工程挑战。这些鸿沟并非彼此独立的失败,而是一个统一问题的症状:当前的人工智能系统缺乏进行科学思维所必需的认知架构。要理解这些鸿沟,必须认识到它们构成了一套相互强化的约束体系:没有丰富的抽象,推理便缺乏基础;而即使拥有最精巧的抽象,若不能与现实紧密耦合,这些抽象也可能逐渐漂向无关紧要的境地。

1.1 抽象鸿沟

尽管早期模型主要操作的是词元(tokens)和像素(pixels),近期在概念瓶颈网络[35]、对称等变图模型[60]以及神经符号混合模型[40]等方面的进展已初步表明,当代人工智能已能表征并推理某些高阶科学概念与原理。然而,物理学家以守恒定律和对称性破缺进行推理,而语言模型仍停留在表层统计层面。弥合这一抽象鸿沟,需要解决若干相互交织的弱点。


现代 Transformer 变体通过复现预训练期间观察到的模式来组装“思维链”式证明[65];它们并不构建显式的因果图,也不利用形式逻辑引擎,除非在狭窄的插件式流水线中。因此,它们在需要深度组合能力的问题上表现失败。其他若干缺陷也已被指出[42]。

相关性与因果性之间的鸿沟,或许是自动化科学发现中最根本的挑战。当前模型擅长发现统计规律,但科学理解要求具备干预推理的能力——不仅要问“什么与什么相关?”,更要问“当我们改变这个时,会发生什么?”。Pearl 的因果层级理论[49]区分了三种认知能力层级:关联(观察)、干预(行动)和反事实(想象)。当前人工智能系统主要运行在关联层级,偶尔通过实验设计触及干预层级。真正的科学推理需要三者兼备,尤其需要反事实能力——即想象那些违反已观测相关性的替代情景。这直接关联到动物行为学家康拉德·洛伦兹的洞见——该洞见最早由 Scholkopf [58] 与学习系统相联系——即“思考”本质上是在想象空间中行动的能力,在此空间中我们可以违反观测数据的约束。这种心理实验——在物理现实中不可能实现,却可在想象中进行——构成了科学定律形成的基础,如插文1所述。

至关重要的是,这种心理实验必须整合科学数据与表征的多种模态。科学现象表现为时空上的连续向量/张量场(如速度-压力场、浓度梯度、电磁场),与离散事件(如化学反应、相变)和符号结构(如反应机制、理论框架)交织共存。因此,有效的科学发现型人工智能系统必须维护多模态嵌入,能够在这些表征层级间无缝转换——从原始传感器数据,到数学抽象,再到因果假设——使系统能够同时在观测模式、物理机制和理论原理之间进行推理。

Buehler 近期的实证研究[11, 10]表明,基于图的知识表征可以弥合抽象鸿沟。具体而言,递归图扩展实验显示,自主系统会自然发展出分层、无标度的网络结构,与人类科学知识结构相似。在没有预定义本体的前提下,这些系统自发形成概念枢纽节点和持久的桥接节点,在保持局部一致性的同时实现全局整合——这恰恰解决了当前人工智能无法将低层模式与高层科学概念相连接的根本局限。诚然,在某一类问题上的成功并不能保证可迁移至其他问题、领域或学科,但这些研究表明,借助适当的基于图的表征,人工智能系统能够发现新颖的概念关系。

1.2 推理鸿沟

未来的系统必须将“思考”与“推理”这两种互补模式作为首要的架构原则加以平衡。“思考”——即缓慢、迭代式的新模式发现——需要:(i) 具备世界模型的智能体,能够通过心理模拟探索反事实空间[26];(ii) 以好奇心驱动的机制,奖励模式新颖性而非即时任务表现;(iii) 耐心参数,防止过早收敛。“推理”——即对模式图的快速、确定性遍历——需要:(i) 高效的知识图谱架构,配备习得的遍历策略;(ii) 神经符号堆栈,同时维护连续表征与离散逻辑结构[40];(iii) 缓存机制,将昂贵的“思考”成果转化为快速“推理”的基本单元。这两种模式之间的互动,正映射了科学家在探索性实验(思考)与理论推导(推理)之间交替进行的方式,如插文1所述。

康拉德·洛伦兹所观察到的“思考即在想象空间中行动”这一观念,为理解世界模型如何促成科学发现提供了基础性原则。正如生物体在投入物理资源前进化出内在模拟行为的能力,具备丰富世界模型的人工智能系统亦可通过心理模拟探索广阔的假设空间。这种能力超越了单纯的模式匹配:它支持反事实推理、实验设计优化,并能在代价高昂的真实实验发生前预判经验性意外。世界模型可作为这种想象行动空间的基础,不仅编码相关性,更编码允许干预与操纵的因果结构。这些心理模拟的保真度——即它们与物理现实的对齐程度——决定了系统的“思考”能否转化为有效的科学发现。

科学进步依赖于有纪律的风险:在超越既有认知的同时保持可证伪性。当前的对齐协议刻意抑制探索行为,使模型偏向安全地完成已被充分探索的路径。受控推测框架——例如结合贝叶斯认知不确定性量化的、好奇心驱动的强化学习[46]——可使系统主动寻找新颖假设,以校准后的不确定性对其进行标记,并提出针对性实验以供裁决。诸如自洽性投票[64]、对抗式同行评审、工具增强型思维链审计等机制,可提供额外架构支持,确保高方差推理始终与经验现实保持连接。

因此,弥合抽象鸿沟与推理鸿沟的关键,在于开发能将显式符号表征构建并操纵为动态对象(而非静态模式)的架构——本质上赋予模型在工作记忆中保留诸如守恒定律或因果结构等抽象概念,并通过心理实验主动对其进行变换的能力[37]。这要求超越当前仅关联模式的方法,转而构建基于图的组合式推理系统[5],其中抽象原理可在想象空间中被实例化、违反并重构。未来系统因此可瞄准可操纵的概念构件,将其组装为训练中从未明确出现过的新构型——从而实现那种最终能弥合相关性与因果性之间鸿沟的反事实推理,而这正是科学思维的核心。

主动推理人工智能系统|算法|科学|智能体|大模型

1.3 现实鸿沟

尽管抽象鸿沟与推理鸿沟限制了人工智能系统内部所能表征与操纵的内容,现实鸿沟则指向一个更根本的局限:计算模型与其试图描述的真实世界之间的脱节。如插文2详述,科学发现对经验反馈的需求源于理论约束——哥德尔不完备性定理与沃尔夫勒姆的计算不可约性共同保证:没有任何纯计算系统能发现自然界的所有真理。科学进步不在于逃避这些约束,而在于通过与现实的持续对话来驾驭它们。实践中,这种对话本质上是多模态的[18]和时空性的[48, 27]。人工智能系统必须维持一个物理基础的潜在状态,其动力学受已知算子与不变性(如守恒定律;伽利略/旋转对称性等)约束。这种结构化的多模态视角降低了样本复杂性,并产生可跨空间、时间与干预进行外推的表征。

经验反馈通过提供纯演绎系统无法获取的信息,补充形式化推理,从而扩展——而非机械地逃避——可检验科学命题的集合。形式系统与经验验证之间的互动,形成了一种规避不完备性与不可约性约束的自举机制。这表明,用于科学发现的人工智能系统必须从根本上保持开放——不仅对新数据开放,更要对现实本身带来的意外开放。科学史上充斥着内在自洽却最终被经验证伪的理论,这凸显了持续以数据验证的不可或缺性。当前人工智能系统擅长在训练分布内插值,却难以应对定义“发现”的外推任务。这一困境因许多科学领域数据稀疏、昂贵且模拟器不完善而加剧。与数据丰富的语言建模不同,单次蛋白质晶体学实验可能耗时数月、花费数千美元。模拟虽有帮助,却引入自身偏差,进一步扩大现实鸿沟。

插文2所呈现的综合观点直接指导我们的架构设计:“思考”负责探索新领域并测试边界;“推理”负责利用已发现的规律。世界模型编码对已知领域的临时地图,接受波普尔的证伪检验与库恩的范式转移。人类引导被证明是必不可少的:人类提供非计算性的洞察力以识别真正的理解,提供价值判断以指导探索方向,并在评价标准自身发生转变的范式转移中进行导航。人类可通过编码领域知识、识别重要异常、发现构成更大框架的联系来塑造搜索过程。当法拉第发现电磁感应时,他并非从麦克斯韦方程(当时尚未建立)中推导得出——而是通过实验发现的。因此,富有成效的协作可完整实现科学方法:AI大规模生成并测试假设;人类提供洞察与判断;经验反馈提供关键引导。我们的架构因此必须实现一个混合循环:物理先验引导机器学习代理,代理指导主动实验,实验持续更新我们的认知,形成连续迭代。


物理先验
尽管生成模型能够产生视觉上引人注目的输出,但它们缺乏物理一致性——物体随意出现和消失,重力作用时断时续,因果性只是被暗示而非强制执行。Mitchell[43]指出,如果没有偏好某些泛化而非其他泛化的偏差,学习系统就无法完成必要的归纳跳跃,以对超出其已见实例的样本进行分类。这种归纳偏差或物理先验可以被内置,以确保生成的实现遵循守恒定律、保持物体永久性,并支持关于物理相互作用的反事实推理。

近期的实现表明,世界模型也可以通过交互来发现物理规律。联合嵌入预测架构[3, 4]能够在无标注数据的情况下学习预测物体运动,这表明心理模拟与经验观察之间的反馈循环可以通过自监督学习目标来实现,这些目标奖励准确的前向预测。然而,当前的世界模型及其概念化仍局限于相对简单的物理场景。尽管它们在刚体动力学和基本遮挡推理方面表现出色,但通常不足以描述流体动力学或涌现集体行为等复杂现象。这种从玩具级演示到科学现象完整复杂性的差距,代表了下一个前沿领域。

因果模型
当前特定领域的基础模型范式——从蛋白质语言模型到分子Transformer——在编码领域知识方面取得了显著进展。然而,这些模型从根本上学习的是相关性模式,而非因果机制。ChemBERTa[14]可通过模式匹配预测分子性质,但无法模拟改变官能团如何影响反应路径。AlphaFold[30]通过进化模式预测蛋白质结构,但并未建模物理折叠过程。

科学发现需要超越模式识别、捕捉因果动态的模型。一个因果分子模型不仅会认识到某些分子结构与性质相关,还会解释电子密度分布如何导致反应活性,以及热力学梯度如何驱动反应。这种因果理解使科学所必需的反事实推理成为可能:预测训练数据中从未见过的新型干预的结果。这一架构选择具有深远影响:基础模型随数据和计算资源扩展,而因果模型则随理解深度扩展。随着结构数据的积累,人工智能模型在插值方面可以不断改进;而当我们完善因果机制时,基础模型便能在外推方面取得进步——这正是科学发现的本质。

2 进一步改进

在学术界中,似乎已形成某种共识:当前架构的渐进式扩展可能无法带来科学发现所要求的质的飞跃。进展取决于通过算法与架构的并行进步(如上文所述)来消除设计约束,同时也依赖于通过软硬件协同设计和更优的评估基准来提升效率。

计算效率
缩放定律表明,模型随着数据量、参数数量和推理时间计算的增加而可预测地性能提升,但每一次微小的收益都可能以巨大的时间或能量成本为代价。这种暴力优化方式与生物系统中的经济性形成鲜明对比——在毫瓦级能耗下,稀疏事件驱动的脉冲[20]和结构可塑性[32]实现了持续学习。弥合这一差距需要算法上的节俭性——例如潜变量模型、主动学习课程、可逆训练——以及硬件协同设计。最先进的基础模型在长时程基准测试上达到可接受性能,需耗费数月GPU时间及超过 1025FLOPs。最近,记忆可逆Transformer[39, 70]和课程学习[63]已将端到端训练成本降低30–45%,且未损失最终精度。类似程度的成本削减也已在利用能源与功耗调度策略的研究中报告[16]。

冯·诺依曼瓶颈——即在远距离内存与计算单元之间传输张量——目前主导了能耗预算[41]。内存内处理织物[34]、利用事件稀疏性的脉冲神经形态核心、用于低延迟矩阵乘法的模拟光子加速器、用于组合子程序的量子采样器[2]等技术,有望开辟新的算法空间。然而,要将其潜力从特定应用领域扩展至更广泛场景,仍需软硬件与算法的协同设计以及广泛的社区协作。

评估
当前的排行榜——例如 MathBench[38]、ARC[15]、GSM8K[17]——几乎未能触及科学的核心行为:生成性与自我修正能力。一个严谨的评估套件应测试模型是否能够:(i) 识别经验数据违背其潜在假设的情况;(ii) 提出带有量化不确定性的可证伪假设;(iii) 在预测失败后调整其内部表征。具体而言,这可能涉及闭环基准测试[33],其中系统从模拟材料实验室中选择实验,更新动态模型,并根据发现效率评分;或定理证明环境,仅当证明附带可解释引理时才给予奖励。若无此类压力测试,表面的进步可能被误认为是概念性突破。未来的评估还可检验人类-人工智能-现实-发现反馈循环本身。早期范例如 Discovery世界(DiscoveryWorld)[28]、PARTNR[12] 和 SciHorizon[54] 代表了迈向该方向的初步步伐。

3 主动推断人工智能系统的架构

前文分析的根本性鸿沟并非独立的失败,而是当前人工智能系统与科学发现需求之间存在深层次架构错配的症状。这些洞见,结合科学现象固有的多尺度、多模态特性——从分子相互作用到涌现的空间-时间动力学——决定了特定的架构需求。一个具备真正发现能力的系统必须整合以下要素:支持心理实验的内部模型、通过“思考-推理”循环不断演化的知识结构,以及将推测锚定于经验现实的验证机制。没有任何单一的“整体式”方法能应对这些多样化需求;因此,我们提出一种模块化的主动推断架构,其中专用组件协同工作。图1展示了该架构,其关键组件包括:

  1. 具有推理可调能力的基础推理模型套件:该顶层组件包含大型推理模型,可根据问题上下文动态调整其推理策略。与仅优化下一个词预测不同,这些模型支持延长的思考时间、系统性探索解路径和显式的推理链。该套件能够识别何种推理模式最为合适。来自人类的价值规范引导推理过程,确保资源分配在科学上有意义的方向,而非任意的模式补全。

  2. 具有共享表征的多模态领域基础模型:这些实质上是世界模型,维护着科学领域的因果表征。它们允许系统在投入物理实验前进行心理模拟干预、测试反事实情景、探索假设空间。这些模型作为预言机或世界模型,为模式发现(思考)和快速推理(推理)提供基础。这些领域特定模型必须共享嵌入,以实现洞察力的跨领域传播。

  3. 作为演化科学记忆的动态知识图谱:与静态知识库不同,这些图谱作为认知架构,通过思考、推理与实验的互动而持续演化。节点表示从原始观测到抽象原理的概念,加权边编码带有相关不确定性的因果关系。当思考发现新规律时,图谱扩展(添加节点);推理建立逻辑连接(添加边);实验验证或证伪关系(调整权重)。版本控制的演化使系统能够维持竞争性假设、追踪概念发展,并识别何时异常需要根本性重构,而非仅作增量更新。这种持续增长的记忆使真正的科学进步成为可能,而非仅限于信息检索。

  4. 通过验证层实现与现实的绑定:验证层将科学主张划分为形式上可证明的陈述与经验上可检验的假设。数学推导、算法属性和逻辑论证可分解为交互式定理证明器(如Lean[44]、Coq[6])的证明义务,从而构建不断增长的机器验证知识库,供未来推理使用。对于超出形式正确性的主张——如对物理现象、化学反应或生物行为的预测——系统生成目标计算模拟和实验方案。这种双重方法承认科学知识横跨数学确定性与经验偶然性。至关重要的是,验证失败成为学习机会,更新系统的世界模型置信边界,并识别其模型与现实之间的差距。

  5. 可由人类操控的编排机制:人类擅长识别有意义的模式并做出创造性跳跃;AI可执行穷举搜索并在海量知识空间中保持一致性;而成熟的计算科学工具(如最优实验设计)可可靠地执行高效代理行动。这种共生关系确保系统的强大推理能力始终锚定在有意义的科学问题上,现有算法也能被有效利用。

  6. 主动探索引擎:这些系统不被动响应查询(当前语言模型的主要使用方式),而是持续在后台运行,生成假设、识别知识空白、提出实验。受不确定性量化与新颖性检测算法驱动,这些引擎可维护一个按实现指定目标的潜力与资源需求排序的开放问题优先队列。该层使系统能够在多个时间尺度上运行——既可快速实验,也可开展长期研究项目,系统性地探索知识空间中未知区域。

上述提出的架构原则在近期关于变革性科学创造力的研究中得到了支撑。例如,Schapiro 等人[56]将科学概念空间形式化为有向无环图,其中顶点表示生成规则,边表示逻辑依赖。这为所提出的动态知识图谱提供了具体的实现路径。他们区分“修改现有约束”与“从根本上重构空间本身”的差异,直接映射到我们架构中推理(遍历已有知识)与思考(发现可能违反现有假设的新模式)的双重模式。这种融合表明,通过人工智能系统实现变革性科学发现,需要具备识别并修改制约当前科学理解之基础公理的能力——正是主动推断框架通过其分层架构、模型集成、经验反馈与人类指导,旨在提供的能力。

尽管人工智能系统在理论上可通过组件间明确定义的接口实现自主运行,但人类交互与决策预计将在其中发挥关键作用。上述架构原则在当代系统中已有部分体现,但尚无一完全实现科学智能的完整愿景。附录A通过我们的“三重鸿沟”框架审视了一些当前实现,讨论了实质性进展与持续局限,为未来路径提供了启示。

4 局限性

尽管前述架构描绘了人工智能系统从真实世界交互中学习的引人入胜愿景,但将反馈整合到迭代训练中仍面临不可忽视的根本性挑战。科学实验产生的信号稀疏、嘈杂且常常相互矛盾。一次合成失败可能源于设备校准错误、建模误差,或真正的化学不可能性——然而系统必须从每种情况中恰当地学习。泛化与特异性之间的张力变得尤为尖锐:过度拟合特定配置可能导致模型脆弱,无法在不同实验室间迁移;而过度泛化则可能忽略关键的上下文依赖现象。

这种在处理实验反馈并将其转化为可操作模型改进时固有的模糊性,使得人类判断不可或缺——它不是临时的脚手架,而是永久性的架构组件。因此,挑战不仅在于设计能够整合反馈的系统,更在于构建能够应对经验现实全谱的架构,包括明确的确认、模糊的结果、系统性偏差以及真正新颖的结果。有效的人机协作因此必须超越简单的监督。当实验和计算挑战基本假设时,这种合作关系尤其关键。

最后,必须强调的是,现代人工智能系统在其当前形态下已具有实际价值,并正被全球科研团队有效使用。然而,即使未来有所改进,这些工具也带来诸多系统性风险[42]:
a) 假阳性与假阴性:虚假相关性可能被误认为规律,而过于谨慎的先验可能掩盖真实效应,因此必须内置严谨的不确定性度量和对抗性证伪机制;
b) 认识论上的过度自信:大型模型可能在分布外缩小误差范围,要求集成多个模型以达成分歧共识;
c) 洞察力与严谨性的退化:随着时间推移,研究人员存在丧失关键科学技能的重大风险;
d) 成本问题:由模拟驱动的探索可能在边际信息饱和后仍持续消耗资源,因此调度器必须权衡价值与资源;
e) 概念漂移:设备和传感器不断演进,若缺乏持续的残差检查和快速再训练,预测可能悄然产生偏差。这些问题必须被持续承认、识别,并将相应的防护措施嵌入科学流程之中。

5 总结与展望

本工作论证指出,通过人工智能实现真正科学发现的道路,需要的不仅仅是数据、算力和规模的提升——它要求对底层架构进行重新构想。当前系统缺乏:(i) 支持机制层面推理的抽象能力;(ii) 能够进行反事实推理而非仅相关性推理的推理能力;以及 (iii) 与多模态、时空测量紧密耦合的现实连接——特别是持续地通过实验和高保真模拟校准信念。尽管完全解决这些挑战是一项长期研究计划,但立即取得进展是可能的,即采用主动推断架构栈,其特征为:
(a) 学习因果、多模态的世界模型用于内部仿真;
(b) 维护持久、版本化的知识图谱并包含不确定性;
(c) 将主张路由至形式化证明引擎或实证验证;
(d) 在人类引导下运行,其中模糊性和价值权衡占据主导地位。
目标是从“模式补全”转向“原理发现”。

这一观点呼吁学术界在因果机器学习、主动学习和自动化科学发现等领域取得实质性进展的基础上,共同应对这些关键差距。因果机器学习社区已在从观测数据中进行因果推断方面取得显著进展,如Pearl的因果层级框架及近期在因果表征学习方面的进展,为理解干预与反事实提供了数学基础。类似地,主动学习已发展出优化实验设计的复杂策略,而自动化发现系统在材料科学和药物发现等特定领域展现出成功。然而,这些社区大多独立运作:因果方法主要聚焦于统计推断而非物理机制发现;主动学习侧重于减少狭窄不确定性而非实现概念突破;自动化发现系统擅长在已知空间内插值,而非外推至真正新颖的现象。要实现这种能力,需要一个多样化的联合体共同开发模型、智能体基础设施、形式化验证栈、模拟器、机器人实验室和评估体系。成功不能仅由基准测试衡量,而应由这些系统何时真正有用——由领域专家评判——并做出真正新颖的科学发现来定义。

附录 A:智能体系统当前实现

关于科学发现中智能体系统的全面综述可参见文献[24]。下文列出一些与抽象、推理和现实鸿沟相关的参考文献。

近期系统在从统计模式提升至科学抽象方面表现出不同程度的成功。ChemCrow [9] 集成了十八个专家设计的工具,以连接词元级操作与化学推理,从而支持反应预测和分子性质分析等任务。ProtAgents [22] 采用强化学习方法,在蛋白质设计的概念空间中导航,超越序列统计,优化生物化学性质。Agent Laboratory [57] 在数据准备和实验阶段实现了高成功率,但在文献综述过程中表现出显著失败。

推理鸿沟最明显地体现在进行真正因果推断的能力有限。Co-scientist [8] 代表了当前前沿,通过迭代实验成功设计并优化了交叉偶联反应,尽管其推理仍从根本上依赖相关性。LLaMP [13] 试图通过将材料性质预测锚定于原子尺度模拟来克服这一限制,有效实现了初步形式的心理实验。这些系统虽然前景广阔,但尚无法执行能够区分科学理解与简单模式匹配的反事实推理。

现实鸿沟既体现了切实进展,也暴露了严峻局限。例如 Organa [19] 展示了与实验室机器人复杂集成的能力,自动化了电化学和材料表征中的复杂实验流程。CALMS [53] 进一步扩展了这种集成,在实验执行过程中提供上下文感知辅助。然而,这些实现暴露出脆弱性:当实验结果偏离预期模式时,现有系统缺乏适应性能力来重新表述假设,或识别其基本假设需要修正。

多智能体架构如 BioInformatics Agent [69] 和 CellAgent [68] 试图通过专门化协作来应对这些局限,不同智能体分别负责数据检索、分析和验证。尽管这些系统在结构良好的任务上表现出性能提升,但尚未能执行真正发现所具有的开放性探索。智能体间通信的协调开销和脆弱性,往往在面对新现象时抵消了专业化带来的优势。

这些实现及其他类似系统正在加速科学研究,但也共同揭示了一个关键洞见:当前系统擅长自动化定义明确的科学工作流,但在需要穿越真正发现的不确定领域时则表现不佳。它们可以执行复杂的实验流程、分析复杂数据集,甚至生成合理的假设,但缺乏元认知能力,无法识别自身是否超出了训练领域的范围。

原文链接:https://arxiv.org/pdf/2506.21329