LLM因果发现瓶颈与干预智能体突破

因果发现是科学推理的核心任务之一，旨在从观测数据中推断变量间的因果关系。近年来，大型语言模型（LLM）因其强大的模式识别能力，被尝试应用于这一领域。然而，最新研究揭示了LLM在因果发现任务中存在的根本性局限，并提出了创新性的解决方案。

来自arXiv的一篇论文《Why LLMs Fail at Causal Discovery and How Interventional Agents Escape》深入剖析了这一问题。研究指出，即便是经过微调的LLM，在简单的因果图上也会出现性能瓶颈，并且随着因果图复杂度的增加，模型表现会显著下降。这一现象并非偶然，而是源于当前主流学习范式的内在缺陷。

论文通过数学证明，监督微调、直接偏好优化以及上下文学习等方法产生的预测器，无法区分生成相似观测数据的因果图。任何试图区分这些图的尝试，都需要模型内部表示无限增长，这违背了这些学习方法的运作条件。研究者将此形式化为“核障碍定理”，确认这一限制是学习范式固有的，而非特定模型或数据集的问题。

为了突破这一瓶颈，论文提出了“智能体因果贝叶斯优化”（Agentic Causal Bayesian Optimization，简称A-CBO）。该方法的核心思想是：冻结语言模型，将其作为干预预言机，回答关于干预效果的针对性查询；同时，一个外部贝叶斯循环在对数级别轮次内，集中对候选因果图的信念。由于决策操作在障碍定理适用的空间之外，A-CBO在底层模型不变的情况下，被证明能够收敛。

实验结果表明，A-CBO在Corr2Cause基准测试中，无需任何训练即可匹配微调基线模型的性能。而在扩展的Corr2Cause基准测试（包含24个变量和18000个测试样本）中，A-CBO显著优于微调和偏好优化方法，且优势随着任务规模扩大而增长。这一成果为LLM在因果发现领域的应用开辟了新路径，展示了通过外部智能体协作，克服模型内在局限的可能性。

该研究不仅揭示了LLM在因果推理任务中的根本性限制，还提供了一个实用的解决方案。A-CBO方法不改变底层模型，而是通过引入外部干预机制，实现了更高效的因果结构学习。这对于科学发现、医疗诊断、经济学建模等依赖因果推理的领域具有重要意义，有望推动AI在复杂因果推理任务中的实际应用。

LLM因果发现瓶颈与干预智能体突破

相关资讯

小型语言模型在编程辅导中的基准测试

SwarmResearch：多智能体协作突破编码优化瓶颈

十二大模型同台竞技：GPT-5.6与Grok、Claude激战四款应用

AgentLens：代码智能体全轨迹评估新基准

OpenAI发布全双工语音模型提升对话自然度