哈佛新研究：AI急诊场景诊断能力超人类医生

近日，发表在《科学》期刊上的一项由哈佛医学院与贝斯以色列女执事医疗中心联合完成的研究，为AI在医疗领域的应用带来了新的突破——OpenAI旗下一款推理模型在急诊等真实临床场景中的诊断与治疗方案制定能力，已达到甚至超越人类医生水平。

与传统AI医疗模型测试多采用受控基准不同，这项研究聚焦于真实临床环境的核心痛点：在信息不完整、不规整且动态变化的情况下，AI能否作出有效诊疗判断。研究团队覆盖了从急诊分诊到住院阶段的多个诊疗环节，每一步都严格限制模型仅使用当时临床已掌握的信息，完全模拟人类医生的真实工作场景。

研究中的一个典型病例充分展现了AI的优势：一名因肺栓塞进入急诊科的患者，治疗后一度好转却再度恶化，人类医生最初怀疑是药物未起效，但AI模型基于同期可获取的电子健康记录，提示患者可能存在狼疮病史。后续验证显示，这一判断完全正确——狼疮引发的心脏炎症才是病情反复的根源。

除了真实急诊病例，研究团队还使用《新英格兰医学杂志》的临床病例报告及其他标准化诊断挑战对模型进行测试，这类测试重点考察复杂诊断推理能力。结果显示，模型的表现超过了参与对照的大规模医生群体。贝斯以色列女执事医疗中心的研究作者亚当·罗德曼指出，该模型最大的价值在于能够处理急诊科混乱的真实世界数据，具备实际临床诊断的潜力。

不过，研究也明确指出了当前模型的局限性：它完全依赖文本病历，无法处理影像、声音等非语言线索，而这些信息在真实临床工作中至关重要。但对比早期大模型在信息模糊或不完整时推理不稳定的问题，本次测试的模型在不确定条件下的表现有显著提升，尤其是在鉴别诊断环节——即同时考虑多种可能疾病并逐步排除的能力上更为突出。

研究团队反复强调，这项成果并非证明AI将取代医生，而是表明AI有望成为极具价值的临床决策支持工具，尤其适用于急诊这类节奏快、时间紧、信息碎片化的场景。哈佛医学院生物医学信息学助理教授拉杰·曼赖认为，这标志着一场深刻的技术变革正在重塑医学领域。

当然，AI医疗工具的落地仍面临诸多挑战。研究人员表示，下一步需要将这类系统放入真实临床环境中开展严谨试验，不仅要验证模型的诊断准确性，更要考察其是否真正改善患者的治疗结局。设计这类试验本身极具挑战性，但本次研究无疑为AI医疗的落地应用发出了明确的行动号召。

哈佛新研究：AI急诊场景诊断能力超人类医生

相关资讯

多智能体系统Agent4cs突破大型代码库摘要难题

BayesBench评估大模型多轮推理能力

空管路径规划算法兼顾可解释性与效率

能力切片：大模型评估与数据优化的闭环方法

Auto-FL-Research：联邦学习算法的智能搜索框架