哈佛研究: AI 急诊诊断准确度超越两位医生

哈佛团队研究显示, OpenAI 的 o1 模型在急诊分诊的文本诊断中准确率达 67%,略优于内科医生的 50-55%。但研究者强调,这仅测试了文本处理能力, AI 尚无法替代临床决策中的责任归属、患者沟通及复杂情境判断。

发布于2026年5月5日 19:32
编辑小创
评论0
阅读0

一项发表于《 Science 》的新研究显示,在多种医疗场景中,大语言模型的诊断表现已接近,甚至在部分急诊早期分诊环节超过人类医生。不过,研究团队没有据此宣称 AI 已经可以独立承担急诊室里的生死决策。研究者的真正结论更谨慎,他们认为,眼下最需要的是在真实临床环境中开展前瞻性试验,检验这些技术到底能走到哪一步。

这项研究来自 Harvard Medical School 和 Beth Israel Deaconess Medical Center 的联合团队,由医生与计算机科学家共同主导。团队设计了多组实验,用来比较 OpenAI 模型与人类医生的表现差异。其中最受关注的一组实验,聚焦 Beth Israel 急诊室的 76 名患者。研究人员将两位内科主治医生给出的诊断,与 OpenAI 的 o1 和 4o 模型生成的诊断进行对比,再由另外两位并不知晓答案来源的主治医生盲评,判断这些诊断的准确度。

研究结果里, o1 的表现尤其醒目。论文写得很直接,在每一个诊断接触点上, o1 要么略优于两位主治医生和 4o ,要么与他们大致持平。差距最明显的环节,出现在第一诊断接触点,也就是急诊初始分诊阶段。这个阶段手头信息最少,时间压力却最大,医生往往必须在信息残缺的情况下尽快做出判断。偏偏就是在这里, o1 拉开了差距。

按 Harvard Medical School 在新闻稿中的说法,研究人员没有对数据做任何预处理。换句话说, AI 模型接收到的,就是当时电子病历系统里真实可见的那一批信息,没有额外清洗,也没有人工补充。基于这些文本信息, o1 在 67% 的分诊案例中给出了“完全正确或非常接近”的诊断。作为对照,一位医生的这一比例为 55%,另一位为 50%。

研究共同作者、 Harvard Medical School AI 实验室负责人 Arjun Manrai 在新闻稿中表示,团队几乎用所有能想到的基准测试了这个 AI 模型,而它的表现超过了早期模型,也超过了研究中设定的人类医生基线。这个说法很容易被外界解读成“AI 已经赢了医生”,但论文和研究者本人其实没有把话说到那一步。

问题就在这里。论文强调的只是诊断能力测试,不是完整临床决策能力测试。研究者明确提醒,这项工作并不意味着 AI 已经准备好在急诊室里直接做出生死攸关的决定。更现实的限制是,这次测试只考察了模型处理文本信息的能力,而已有研究表明,当前基础模型在处理非文本输入时仍有明显短板,比如影像、体征变化、病人现场状态等,这些在真实急诊中都很关键。

研究共同作者、 Beth Israel 医生 Adam Rodman 对《卫报》说得更直白。眼下围绕 AI 诊断还没有正式的问责框架。病人在面对生死问题和艰难治疗选择时,依然希望由人类来引导。这个判断很朴素,也很接近医疗现场的真实逻辑。诊断从来不只是“猜对答案”,它还牵涉责任归属、沟通能力、风险承受和患者信任。

这项研究发布后,也引来了对媒体标题党式解读的反弹。急诊科医生 Kristen Panthagani 在评论文章中称,这是一项有意思的 AI 研究,但已经催生出一些明显过热的标题。她特别指出,研究里与 AI 对比的并不是急诊科医生,而是内科主治医生。这个差别并不小。急诊与内科虽然都做诊断,但目标函数并不一样。 Panthagani 的意思很明确,如果要把 AI 工具与医生临床能力比较,起码应该先和真正从事该专科的医生相比。

她举了个很形象的例子。如果一个大语言模型能在神经外科委员会考试里赢过皮肤科医生,这件事并没有太大实际意义。放回急诊场景,她的观点更尖锐。急诊医生第一次接诊病人时,首要任务并不是立刻猜出最终诊断,而是尽快判断患者是否存在致命风险。这句话几乎点中了这类研究最容易被忽略的地方。模型也许更擅长在既有文本里匹配出“正确答案”,但急诊医生面对的是一个动态、混乱、信息不断涌入的现场,优先级往往是排除马上会致命的问题,而不是一步命中最终病名。

原报道后来也据此更新了标题和正文,补充说明研究中的人类对照组其实是内科主治医生,并加入了 Kristen Panthagani 的评论。这种修正很有必要。因为同样一组结果,放在“AI 超过急诊医生”和“AI 超过内科医生在急诊分诊中的文本诊断表现”这两个标题下,信息含义完全不是一回事。

相关文章

奥斯卡新规: AI 生成演员和剧本无参评资格
AI 新闻资讯
2026年5月5日
0 条评论
小创

奥斯卡新规: AI 生成演员和剧本无参评资格

奥斯卡学院公布新版评奖规则,明确生成式 AI 使用边界。规则要求参评表演必须获得本人同意,剧本必须属于“人类创作”。此调整旨在回应 AI 技术快速进入影视生产引发的争议,守住创作主体地位。学院聚焦“谁在表演、谁在写作”这一核心问题,既不全面禁用 AI ,也不接受技术中立说,而是通过资格认定来保护署名、授权和创作者身份的传统秩序。

阅读全文
ChatGPT Images 2.0 在印度受热捧,但目前在其他地方尚未大获成功
AI 新闻资讯
2026年5月5日
0 条评论
小创

ChatGPT Images 2.0 在印度受热捧,但目前在其他地方尚未大获成功

虽然 OpenAI 声称印度成为 ChatGPT Images 2.0 最大用户市场,但第三方数据显示全球增长实则温和,下载量仅增 11%,日活和流量涨幅约 1%。巴基斯坦、越南、印尼等新兴市场反而出现高达 79%的下载增长。印度用户主要将该功能用于个人表达场景,如风格化肖像、社交头像等,反映出 AI 图像工具在不同市场的落地方式存在差异。

#OpenAI
阅读全文
马斯克作证: xAI 用 OpenAI 模型训练 Grok
AI 新闻资讯
2026年5月5日
0 条评论
小创

马斯克作证: xAI 用 OpenAI 模型训练 Grok

Musk 在法庭作证时承认 xAI 确实使用 OpenAI 模型进行蒸馏训练 Grok ,并坦言这在 AI 行业是普遍做法。这桩诉讼撕开了大模型竞争中被默认存在却少有人承认的另一面。头部公司间也在相互“借力”。蒸馏通过系统性查询现成模型,可低成本训练出性能接近的替代模型,直接削弱领先者的投入回报。前沿实验室正通过“前沿模型论坛”联合应对,但服务条款和访问权限正在成为新的竞争边界。

#Grok
阅读全文
互动讨论

评论区

围绕《哈佛研究: AI 急诊诊断准确度超越两位医生》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。