MIT研究：AI员工勉强及格，难取代人类

AI 新闻

MIT 研究：AI “员工”表现勉强及格，无法取代人类

作者：Judith Murphy 日期：2026年4月3日

麻省理工学院（MIT）的研究人员针对11,000项真实职场任务测试了41个AI模型，结果发现，大多数输出结果仅能达到最低标准，在处理复杂工作时的得分远未达到“优秀”水平。

如果你曾因担心大语言模型（LLM）即将抢走你的饭碗而辗转难眠，麻省理工学院的一项新研究或许能让你吃下一颗定心丸。这项大规模研究的核心发现表明：尽管企业投入了数十亿美元，媒体也不遗余力地炒作，但目前人工智能的水平仅相当于一个“漫不经心的实习生”。在许多场景下，它虽然能勉强跨过合格工作的最低门槛，但一旦涉及精确性、创造力或多步骤推理，它就显得力不从心。

MIT团队对41种不同的语言模型进行了严格测试，其中包括来自OpenAI、Google和Anthropic知名系统。测试基于美国劳工部官方职位描述中的11,000多项文本任务。随后，在相关领域拥有实际专业经验的人类评估员按1到9分的标准对这些输出结果进行了评分。7分被定义为“最低合格”，意味着工作成果无需人工编辑即可直接使用。就目前情况而言，AI模型在所有任务中达到7分的比例约为65%。这听起来似乎尚可，但若看看上限，情况就不容乐观了。无论给予系统多少时间，AI模型获得9分（即“优秀”质量）的概率从未超过50%。当任务需要多步骤处理或细致入微的判断时，这些模型失败的概率往往高于成功的概率。

这些数据清晰地描绘了该技术的长处与短板。对于建筑施工管理和维护物流等领域中那些常规的、文本量大的任务，AI处理起来相对轻松。然而，法律服务和信息技术等高技能领域的情况则截然不同，成功率明显较低。这与我们过去一年在公开场合看到的情况如出一辙。德勤（Deloitte）不得不为两份政府报告（一份在澳大利亚，另一份在加拿大）进行辩解，因为这些报告中充斥着AI生成的虚假信息。CNET和《体育画报》（Sports Illustrated）因悄悄发布AI生成的文章并伪造作者署名而遭到舆论抨击。纽约一家律师事务所因在破产申请文件中使用了AI伪造的引用案例，被迫在法庭上道歉。这项技术不仅仅是有时不够准确，它还会“自信满满地犯错”，从而引发真实的法律和声誉风险。

炒作背后的商业现实

MIT的数据清楚地表明，目前大多数企业的部署策略应侧重于“增强”而非“全面替代”。该研究与……（