前沿大模型事实核查分歧率达67%

一项最新研究揭示了前沿大语言模型在处理真实世界事实核查任务时的显著分歧。研究人员将1000个由用户提交至事实核查平台的真实声明，分别提交给五个顶尖的AI模型——这些模型代表了当前大语言模型的前沿水平。与标准基准测试不同，这些声明没有公开的答案密钥，因此更能反映模型在实际应用中的表现。

研究采用了一个四类判定标准：真实、大部分真实、误导性、虚假。每个声明只有一个正确的判定类别，因此任何模型间的分歧都意味着至少有一个模型的判断与标签不一致。结果显示，在67%的声明（672/1000，95%置信区间：64%-70%）中，至少有一个前沿模型的判定与多数模型意见相左，或者根本没有形成明确多数意见。这一数据凸显了当前AI在事实核查领域的一致性问题。

进一步分析发现，34%的声明（343/1000，95%置信区间：31%-37%）涉及两个模型之间至少两个类别的判定差距——这不仅是校准上的细微差异，而是实质性的意见分歧。例如，一个模型可能判定某声明为“真实”，而另一个模型则判定为“误导性”或“虚假”。这种跨类别的分歧表明，模型在理解复杂信息时可能存在根本性的差异。

为了量化模型间的一致性，研究人员使用了Krippendorff's α系数（序数版本），结果为0.639（基于1000个声明和5个评估者）。这一数值表明模型间的意见虽非随机，但一致性有限：模型的判定存在一定结构，但不足以将整个模型组视为一个可互换的单一评判者。研究指出，模型在极端类别（真实/虚假）上更容易达成一致，而在中间类别（大部分真实/误导性）上分歧更为显著。在328个达成一致的声明中，仅有4个被一致判定为“误导性”，没有任何声明被一致判定为“大部分真实”。

不同模型的判定分布也呈现出差异：有些模型倾向于将声明集中在“真实”或“虚假”两极，而另一些模型则更均匀地分布在中间两个类别上。这种分布差异可能源于模型训练数据、架构设计或指令微调策略的不同。研究人员强调，多数模型的意见并不等同于真实答案——多数判定有时可能是错误的，而个别持异议的模型反而可能是正确的。因此，研究中的“多数”仅作为衡量分歧的结构性参考点，而非正确性的替代。

这项研究的意义在于，它揭示了前沿AI模型在非标准化任务中的局限性。尽管这些模型在基准测试上表现出色，但在面对真实世界中模棱两可、缺乏明确答案的声明时，它们的一致性和可靠性仍面临挑战。对于依赖AI进行事实核查的媒体、平台和用户而言，这一发现提醒他们需要谨慎对待模型的输出，尤其是在涉及复杂社会议题时。

前沿大模型事实核查分歧率达67%

相关资讯

医学推理大模型：临床需求与AI能力的对齐

上下文图谱驱动企业AI主动代理

Ghost Font：人类可读但AI无法破解的动态字体

十二大模型同台竞技：GPT-5.6与Grok、Claude激战四款应用

AgentLens：代码智能体全轨迹评估新基准