百川发布医疗增强大模型M4，多项评测超越GPT

百川智能与清华大学研究团队近日联合发布了新一代医疗增强大模型Baichuan-M4。该模型在多项医疗评测中表现卓越，尤其在OpenAI提出的医疗评测HealthBench上，综合得分68.6，位列世界第一，领先第二名GPT-5.5超过10分。在最考验复杂临床决策的Hard子集上，M4的领先优势更是达到15.9分，同时其幻觉率低至3.3%。

M4在交互方式上实现了重要突破。它不再是被动等待用户提供完整信息，而是会主动追问症状的性质与诱因，优先识别和排查危急重症。这种设计避免了模型为尽快给出答案而跳过关键病史的问题，更贴近真实临床场景。

为了更科学地评估模型能力，百川智能借鉴医学教育中长期使用的OSCE（客观结构化临床考试）方法，联合150多位一线医生构建了动态问诊评测体系SCAN-bench。该体系不考查静态记忆，而是以真实临床经验为评分标准，通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。在该评测中，M4初诊得分79.0，复诊得分74.7，均明显领先GPT-5.5、DeepSeek-V4-Pro和Claude Opus 4.7。

Baichuan-M4还推出了“全病程记忆”功能，能够打通历史病历、多轮问诊、化验趋势与用药反馈，让模型在多次对话中始终掌握患者身份、既往病史及各项指标变化，而不必每次从零开始。在长上下文临床记忆评测中，M4取得86.9分，为同类最高，较上一代M3提升21.1分。

在循证医学方面，百川首创“证据锚定”技术，要求模型生成的每一句医学结论都精确对应到原始论文或指南中的具体段落，而不仅仅是标注引用文献。依托六源循证范式，模型只在权威医学来源中检索，不从开放网络抓取资料。M4进一步将权威指南、专家共识与真实诊疗流程拆解为标准化、可复用的临床路径单元，目前已超过1000个，覆盖200余种疾病，每一条都由资深临床专家定义和校验。在百川构建的循证医学评测Baichuan-EBM上，M4的循证引用精度达到90.0，而GPT-5.5为54.7，OpenEvidence为55.9。

Baichuan-M4的发布标志着医疗AI在专业性和可靠性上迈出了重要一步。其主动问诊、全病程记忆和证据锚定等创新，不仅提升了模型在临床场景中的实用性，也为AI在医疗领域的合规应用提供了新的技术范式。随着更多临床路径的积累和优化，该模型有望在辅助诊断、病历分析等环节发挥更大价值。

百川发布医疗增强大模型M4，多项评测超越GPT

相关资讯

智谱GLM 5.2登顶网页设计AI榜单

Grok Imagine Video 1.5正式上线：25秒生成720P视频

人机协作协同效应研究取得新进展

CaVe-VLM-CoT：可解释视觉语言模型框架

DeXposure-Claw：AI驱动的DeFi风险监督新范式