AI 诊断能否超越医生？哈佛研究给出最终答案

科技与科学

AI 诊断患者能否胜过医生？哈佛大学研究给出答案

作者：Govind Choudhary 更新时间：2026 年 5 月 4 日，15:46（印度标准时间）

一项最新的哈佛大学研究发现，人工智能（AI）模型在急诊室病例的诊断准确性上可超越人类医生，但专家强调，AI 的定位是辅助而非取代人类的临床决策。

研究发现：AI 在患者诊断方面表现持平或优于医生（图片来源：AI 生成）

关注我们关注我们

人工智能正日新月异地发展。其在医学领域的应用并非新鲜事。众多研究人员与科技巨头已启动多个项目，利用 AI 模型协助医生分析患者症状，甚至提供治疗建议。在此背景下，一项新研究发现，在真实急诊场景中，大语言模型（Large Language Model, LLM）对患者疾病的诊断准确率竟高于人类医生。

研究核心发现

这项发表于《科学》（Science）期刊、由哈佛医学院（Harvard Medical School, HMS）与贝斯以色列女执事医疗中心（Beth Israel Deaconess Medical Center）联合开展的研究，旨在评估大语言模型在真实急诊医疗环境中的表现。结果显示，至少有一款 LLM 在诊断准确性上超越了现实中的医生：在 67% 的病例中，该模型给出了准确或高度接近正确的诊断；相比之下，人类医生的诊断准确率仅为 50%–55%。

深入解析

- 将 AI 用于癌症治疗建议存在哪些风险？ - AI 的“自信程度”如何影响其健康建议的可靠性？ - AI 模型在疾病诊断方面存在哪些局限性？

（内容由 AI 生成，可能存在误差）

基于对数百名医生与大语言模型回答的实际对比试验，研究结果凸显：AI 驱动的系统正逐步逼近支持临床医生进行实时决策的能力。医疗领域对 AI 的采纳日益加速；据美国医学会（American Medical Association, AMA）统计，目前美国近五分之一的医师已在诊断过程中使用 AI 工具作为辅助。

该研究的合著者、哈佛医学院布拉瓦特尼克研究所（Blavatnik Institute at HMS）生物医学信息学助理教授阿尔琼（拉杰）·曼赖（Arjun "Raj" Manrai）在新闻稿中表示：“我们在几乎所有基准测试中对 AI 模型进行了全面评估，其表现不仅超越了既往模型，也显著优于我们设定的医师基线。”

在其中一项实验中，研究团队选取了 76 例急诊病例，这些病例均需紧急判断是否应将患者优先收治入重症监护室（ICU）。研究将人类医生的诊断结果与 OpenAI 的 o1 和 4o 模型生成的诊断进行了对比。值得注意的是，当另外两位不知晓诊断来源（即不知是否为 AI 生成）的医生对结果进行盲评时，他们得出结论：在急诊诊断流程的各个阶段，o1 模型的表现略优于或与人类医生及 4o 模型相当。

此外，另一位合著者、贝斯以色列女执事医疗中心的哈佛医学院临床医学研究员彼得·布罗德尔（Peter Brodeur）指出：“模型正日益……"（原文此处截断）