哈佛研究： AI 急诊诊断准确度超越两位医生

一项发表于《 Science 》的新研究显示，在多种医疗场景中，大语言模型的诊断表现已接近，甚至在部分急诊早期分诊环节超过人类医生。不过，研究团队没有据此宣称 AI 已经可以独立承担急诊室里的生死决策。研究者的真正结论更谨慎，他们认为，眼下最需要的是在真实临床环境中开展前瞻性试验，检验这些技术到底能走到哪一步。

这项研究来自 Harvard Medical School 和 Beth Israel Deaconess Medical Center 的联合团队，由医生与计算机科学家共同主导。团队设计了多组实验，用来比较 OpenAI 模型与人类医生的表现差异。其中最受关注的一组实验，聚焦 Beth Israel 急诊室的 76 名患者。研究人员将两位内科主治医生给出的诊断，与 OpenAI 的 o1 和 4o 模型生成的诊断进行对比，再由另外两位并不知晓答案来源的主治医生盲评，判断这些诊断的准确度。

研究结果里， o1 的表现尤其醒目。论文写得很直接，在每一个诊断接触点上， o1 要么略优于两位主治医生和 4o ，要么与他们大致持平。差距最明显的环节，出现在第一诊断接触点，也就是急诊初始分诊阶段。这个阶段手头信息最少，时间压力却最大，医生往往必须在信息残缺的情况下尽快做出判断。偏偏就是在这里， o1 拉开了差距。

按 Harvard Medical School 在新闻稿中的说法，研究人员没有对数据做任何预处理。换句话说， AI 模型接收到的，就是当时电子病历系统里真实可见的那一批信息，没有额外清洗，也没有人工补充。基于这些文本信息， o1 在 67% 的分诊案例中给出了“完全正确或非常接近”的诊断。作为对照，一位医生的这一比例为 55%，另一位为 50%。

研究共同作者、 Harvard Medical School AI 实验室负责人 Arjun Manrai 在新闻稿中表示，团队几乎用所有能想到的基准测试了这个 AI 模型，而它的表现超过了早期模型，也超过了研究中设定的人类医生基线。这个说法很容易被外界解读成“AI 已经赢了医生”，但论文和研究者本人其实没有把话说到那一步。

问题就在这里。论文强调的只是诊断能力测试，不是完整临床决策能力测试。研究者明确提醒，这项工作并不意味着 AI 已经准备好在急诊室里直接做出生死攸关的决定。更现实的限制是，这次测试只考察了模型处理文本信息的能力，而已有研究表明，当前基础模型在处理非文本输入时仍有明显短板，比如影像、体征变化、病人现场状态等，这些在真实急诊中都很关键。

研究共同作者、 Beth Israel 医生 Adam Rodman 对《卫报》说得更直白。眼下围绕 AI 诊断还没有正式的问责框架。病人在面对生死问题和艰难治疗选择时，依然希望由人类来引导。这个判断很朴素，也很接近医疗现场的真实逻辑。诊断从来不只是“猜对答案”，它还牵涉责任归属、沟通能力、风险承受和患者信任。

这项研究发布后，也引来了对媒体标题党式解读的反弹。急诊科医生 Kristen Panthagani 在评论文章中称，这是一项有意思的 AI 研究，但已经催生出一些明显过热的标题。她特别指出，研究里与 AI 对比的并不是急诊科医生，而是内科主治医生。这个差别并不小。急诊与内科虽然都做诊断，但目标函数并不一样。 Panthagani 的意思很明确，如果要把 AI 工具与医生临床能力比较，起码应该先和真正从事该专科的医生相比。

她举了个很形象的例子。如果一个大语言模型能在神经外科委员会考试里赢过皮肤科医生，这件事并没有太大实际意义。放回急诊场景，她的观点更尖锐。急诊医生第一次接诊病人时，首要任务并不是立刻猜出最终诊断，而是尽快判断患者是否存在致命风险。这句话几乎点中了这类研究最容易被忽略的地方。模型也许更擅长在既有文本里匹配出“正确答案”，但急诊医生面对的是一个动态、混乱、信息不断涌入的现场，优先级往往是排除马上会致命的问题，而不是一步命中最终病名。

原报道后来也据此更新了标题和正文，补充说明研究中的人类对照组其实是内科主治医生，并加入了 Kristen Panthagani 的评论。这种修正很有必要。因为同样一组结果，放在“AI 超过急诊医生”和“AI 超过内科医生在急诊分诊中的文本诊断表现”这两个标题下，信息含义完全不是一回事。

相关文章

奥斯卡新规： AI 生成演员和剧本无参评资格

ChatGPT Images 2.0 在印度受热捧，但目前在其他地方尚未大获成功

马斯克作证： xAI 用 OpenAI 模型训练 Grok

评论区