一项发表于《 Science 》的新研究显示,在多种医疗场景中,大语言模型的诊断表现已接近,甚至在部分急诊早期分诊环节超过人类医生。不过,研究团队没有据此宣称 AI 已经可以独立承担急诊室里的生死决策。研究者的真正结论更谨慎,他们认为,眼下最需要的是在真实临床环境中开展前瞻性试验,检验这些技术到底能走到哪一步。
这项研究来自 Harvard Medical School 和 Beth Israel Deaconess Medical Center 的联合团队,由医生与计算机科学家共同主导。团队设计了多组实验,用来比较 OpenAI 模型与人类医生的表现差异。其中最受关注的一组实验,聚焦 Beth Israel 急诊室的 76 名患者。研究人员将两位内科主治医生给出的诊断,与 OpenAI 的 o1 和 4o 模型生成的诊断进行对比,再由另外两位并不知晓答案来源的主治医生盲评,判断这些诊断的准确度。
研究结果里, o1 的表现尤其醒目。论文写得很直接,在每一个诊断接触点上, o1 要么略优于两位主治医生和 4o ,要么与他们大致持平。差距最明显的环节,出现在第一诊断接触点,也就是急诊初始分诊阶段。这个阶段手头信息最少,时间压力却最大,医生往往必须在信息残缺的情况下尽快做出判断。偏偏就是在这里, o1 拉开了差距。
按 Harvard Medical School 在新闻稿中的说法,研究人员没有对数据做任何预处理。换句话说, AI 模型接收到的,就是当时电子病历系统里真实可见的那一批信息,没有额外清洗,也没有人工补充。基于这些文本信息, o1 在 67% 的分诊案例中给出了“完全正确或非常接近”的诊断。作为对照,一位医生的这一比例为 55%,另一位为 50%。
研究共同作者、 Harvard Medical School AI 实验室负责人 Arjun Manrai 在新闻稿中表示,团队几乎用所有能想到的基准测试了这个 AI 模型,而它的表现超过了早期模型,也超过了研究中设定的人类医生基线。这个说法很容易被外界解读成“AI 已经赢了医生”,但论文和研究者本人其实没有把话说到那一步。
问题就在这里。论文强调的只是诊断能力测试,不是完整临床决策能力测试。研究者明确提醒,这项工作并不意味着 AI 已经准备好在急诊室里直接做出生死攸关的决定。更现实的限制是,这次测试只考察了模型处理文本信息的能力,而已有研究表明,当前基础模型在处理非文本输入时仍有明显短板,比如影像、体征变化、病人现场状态等,这些在真实急诊中都很关键。
研究共同作者、 Beth Israel 医生 Adam Rodman 对《卫报》说得更直白。眼下围绕 AI 诊断还没有正式的问责框架。病人在面对生死问题和艰难治疗选择时,依然希望由人类来引导。这个判断很朴素,也很接近医疗现场的真实逻辑。诊断从来不只是“猜对答案”,它还牵涉责任归属、沟通能力、风险承受和患者信任。
这项研究发布后,也引来了对媒体标题党式解读的反弹。急诊科医生 Kristen Panthagani 在评论文章中称,这是一项有意思的 AI 研究,但已经催生出一些明显过热的标题。她特别指出,研究里与 AI 对比的并不是急诊科医生,而是内科主治医生。这个差别并不小。急诊与内科虽然都做诊断,但目标函数并不一样。 Panthagani 的意思很明确,如果要把 AI 工具与医生临床能力比较,起码应该先和真正从事该专科的医生相比。
她举了个很形象的例子。如果一个大语言模型能在神经外科委员会考试里赢过皮肤科医生,这件事并没有太大实际意义。放回急诊场景,她的观点更尖锐。急诊医生第一次接诊病人时,首要任务并不是立刻猜出最终诊断,而是尽快判断患者是否存在致命风险。这句话几乎点中了这类研究最容易被忽略的地方。模型也许更擅长在既有文本里匹配出“正确答案”,但急诊医生面对的是一个动态、混乱、信息不断涌入的现场,优先级往往是排除马上会致命的问题,而不是一步命中最终病名。
原报道后来也据此更新了标题和正文,补充说明研究中的人类对照组其实是内科主治医生,并加入了 Kristen Panthagani 的评论。这种修正很有必要。因为同样一组结果,放在“AI 超过急诊医生”和“AI 超过内科医生在急诊分诊中的文本诊断表现”这两个标题下,信息含义完全不是一回事。


