个人健康记录提升LLM健康问答效用

一项来自arXiv的新研究系统评估了大型语言模型（LLM）在个人健康记录（PHR）上下文中的表现，揭示了将患者管理的健康数据整合到AI健康问答中的巨大潜力与当前局限。该研究由计算机科学领域的研究人员完成，预印本于2026年5月18日提交。

研究团队使用Gemini 3.0 Flash作为测试模型，从三个不同分布中抽取了总计2,257条用户查询，以模拟患者真实提问场景：短网页搜索查询、基于聊天机器人对话模板的长问题，以及患者向医疗团队提出的实际电话咨询问题。这些查询与来自1,945份去标识化PHR的数据相匹配，构建了一个丰富的测试集。

实验设计了三种条件来生成Gemini的回答：无PHR上下文、仅提供基本的人口统计、疾病和药物摘要，以及提供完整的临床笔记。评估采用了两套框架：一是已有的SHARP评分系统，二是新开发的专门用于识别LLM在解读PHR时错误模式的框架。全面评估由自动评分器完成，同时选取95个样本由临床医生进行人工评分，所有评分者均知晓完整的PHR上下文。

结果显示，加入PHR数据后，模型对所有类型问题的回答帮助性均有显著提升（p < 0.001，配对t检验）。具体而言，安全性、准确性、相关性和个性化方面均观察到潜在增益。这意味着，当患者提供自己的健康记录作为背景时，AI能够给出更贴合个人状况、更可靠的建议。

然而，新开发的PHR评估框架也暴露了LLM在理解复杂健康记录时的关键缺陷。例如，模型在时间定向方面存在困难，难以正确把握病史的时间顺序；同时，虽然罕见，但仍有有意义的虚构内容出现，即模型生成了不基于实际记录的信息。这些发现为AI在医疗健康领域的应用划定了明确的改进方向。

该研究的意义在于，它不仅验证了PHR数据能够帮助满足广泛用户需求，还提供了一个监控LLM回答中基于PHR上下文的缺陷框架。研究团队指出，这激励了进一步的工作，以评估和实现用户通过理解自身健康记录而获得的潜在益处。

从技术角度看，这项研究代表了将患者自主管理的健康数据与前沿AI模型相结合的重要一步。PHR作为患者自我记录健康信息的工具，其复杂性和非结构化特点一直是数据分析的挑战。LLM的引入有望将这一挑战转化为机遇，使患者能够通过自然语言查询直接获得个性化的健康洞察，而无需专业医学知识。

未来，随着PHR的普及和LLM能力的提升，这种结合可能重塑患者与自身健康数据互动的方式。但当前研究也提醒，在完全信赖AI之前，必须解决时间定向错误和虚构内容等关键问题，确保输出的安全性和可靠性。该工作的评估框架为行业提供了一种标准化工具，有助于持续追踪和提升AI在健康领域的表现。