哈佛研究: AI 急诊诊断准确度超越两位医生

哈佛团队研究显示, OpenAI 的 o1 模型在急诊分诊的文本诊断中准确率达 67%,略优于内科医生的 50-55%。但研究者强调,这仅测试了文本处理能力, AI 尚无法替代临床决策中的责任归属、患者沟通及复杂情境判断。

发布于2026年5月5日 19:32
编辑小创
评论0
阅读38

一项发表于《 Science 》的新研究显示,在多种医疗场景中,大语言模型的诊断表现已接近,甚至在部分急诊早期分诊环节超过人类医生。不过,研究团队没有据此宣称 AI 已经可以独立承担急诊室里的生死决策。研究者的真正结论更谨慎,他们认为,眼下最需要的是在真实临床环境中开展前瞻性试验,检验这些技术到底能走到哪一步。

这项研究来自 Harvard Medical School 和 Beth Israel Deaconess Medical Center 的联合团队,由医生与计算机科学家共同主导。团队设计了多组实验,用来比较 OpenAI 模型与人类医生的表现差异。其中最受关注的一组实验,聚焦 Beth Israel 急诊室的 76 名患者。研究人员将两位内科主治医生给出的诊断,与 OpenAI 的 o1 和 4o 模型生成的诊断进行对比,再由另外两位并不知晓答案来源的主治医生盲评,判断这些诊断的准确度。

研究结果里, o1 的表现尤其醒目。论文写得很直接,在每一个诊断接触点上, o1 要么略优于两位主治医生和 4o ,要么与他们大致持平。差距最明显的环节,出现在第一诊断接触点,也就是急诊初始分诊阶段。这个阶段手头信息最少,时间压力却最大,医生往往必须在信息残缺的情况下尽快做出判断。偏偏就是在这里, o1 拉开了差距。

按 Harvard Medical School 在新闻稿中的说法,研究人员没有对数据做任何预处理。换句话说, AI 模型接收到的,就是当时电子病历系统里真实可见的那一批信息,没有额外清洗,也没有人工补充。基于这些文本信息, o1 在 67% 的分诊案例中给出了“完全正确或非常接近”的诊断。作为对照,一位医生的这一比例为 55%,另一位为 50%。

研究共同作者、 Harvard Medical School AI 实验室负责人 Arjun Manrai 在新闻稿中表示,团队几乎用所有能想到的基准测试了这个 AI 模型,而它的表现超过了早期模型,也超过了研究中设定的人类医生基线。这个说法很容易被外界解读成“AI 已经赢了医生”,但论文和研究者本人其实没有把话说到那一步。

问题就在这里。论文强调的只是诊断能力测试,不是完整临床决策能力测试。研究者明确提醒,这项工作并不意味着 AI 已经准备好在急诊室里直接做出生死攸关的决定。更现实的限制是,这次测试只考察了模型处理文本信息的能力,而已有研究表明,当前基础模型在处理非文本输入时仍有明显短板,比如影像、体征变化、病人现场状态等,这些在真实急诊中都很关键。

研究共同作者、 Beth Israel 医生 Adam Rodman 对《卫报》说得更直白。眼下围绕 AI 诊断还没有正式的问责框架。病人在面对生死问题和艰难治疗选择时,依然希望由人类来引导。这个判断很朴素,也很接近医疗现场的真实逻辑。诊断从来不只是“猜对答案”,它还牵涉责任归属、沟通能力、风险承受和患者信任。

这项研究发布后,也引来了对媒体标题党式解读的反弹。急诊科医生 Kristen Panthagani 在评论文章中称,这是一项有意思的 AI 研究,但已经催生出一些明显过热的标题。她特别指出,研究里与 AI 对比的并不是急诊科医生,而是内科主治医生。这个差别并不小。急诊与内科虽然都做诊断,但目标函数并不一样。 Panthagani 的意思很明确,如果要把 AI 工具与医生临床能力比较,起码应该先和真正从事该专科的医生相比。

她举了个很形象的例子。如果一个大语言模型能在神经外科委员会考试里赢过皮肤科医生,这件事并没有太大实际意义。放回急诊场景,她的观点更尖锐。急诊医生第一次接诊病人时,首要任务并不是立刻猜出最终诊断,而是尽快判断患者是否存在致命风险。这句话几乎点中了这类研究最容易被忽略的地方。模型也许更擅长在既有文本里匹配出“正确答案”,但急诊医生面对的是一个动态、混乱、信息不断涌入的现场,优先级往往是排除马上会致命的问题,而不是一步命中最终病名。

原报道后来也据此更新了标题和正文,补充说明研究中的人类对照组其实是内科主治医生,并加入了 Kristen Panthagani 的评论。这种修正很有必要。因为同样一组结果,放在“AI 超过急诊医生”和“AI 超过内科医生在急诊分诊中的文本诊断表现”这两个标题下,信息含义完全不是一回事。

相关文章

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了
AI 新闻资讯
2026年6月18日
0 条评论
零重力瓦力

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了

Visa 与 OpenAI 合作将支付网络接入 ChatGPT ,Mastercard 同日发布 Agent Pay for Machines 协议,标志着支付基础设施正式向 AI 智能体开放。Visa 推出 Agent Score 、验证目录及大模型反欺诈工具保障交易安全;Mastercard 则通过链上记录实现权限可验。尽管面临身份碎片化及责任界定等挑战,且短期实用价值有限,但两大巨头同日布局确认了智能体作为经济参与者的地位,开发者命令行支付或成率先落地场景。

#智能体
阅读全文
SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来
AI 新闻资讯
2026年6月17日
0 条评论
零重力瓦力

SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来

SpaceX 以 600 亿美元全股票收购 AI 编程工具 Cursor,旨在补齐企业级 AI 产品短板并推广自研 Grok 模型。此举将算力基础设施与产品入口结合,但面临 xAI 团队动荡及文化冲突风险。收购后 Cursor 或调整定价、深度整合 Grok 模型,个人用户权益存变数。交易预计三季度完成,建议开发者关注产品路线图转向及核心人员流失信号,同时该交易也为 AI 编程赛道确立了新估值锚点。

阅读全文
电影大师斯科塞斯开始用 AI 画分镜了
AI 新闻资讯
2026年6月4日
0 条评论
零重力瓦力

电影大师斯科塞斯开始用 AI 画分镜了

导演马丁·斯科塞斯出任 Black Forest Labs 顾问,利用 FLUX 模型辅助新片分镜创作,以提升前期沟通效率。此举标志着好莱坞对 AI 工具的接纳度提升,但也引发关于视觉同质化与艺术独特性的争议。BFL 借此验证“视觉智能”在分镜等中间环节的商业价值,而非替代最终创作。斯科塞斯将 AI 定位为表达工具而非想象替代者,其应用仍局限于筹备阶段,影视行业对 AI 的深度整合尚待观察。

#AI 绘画
阅读全文
互动讨论

评论区

围绕《哈佛研究: AI 急诊诊断准确度超越两位医生》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。