MIT研究针对11,000项职场任务测试了41个AI模型,发现其表现仅相当于“漫不经心的实习生”,虽65%的输出勉强及格,但在精确性、创造力及复杂推理方面远未达优秀水平,且存在“自信犯错”风险。研究表明AI适合处理常规文本任务,但在法律、IT等高技能领域表现不佳。结论建议企业应侧重“增强”人类能力,而非“全面替代”。
AI 新闻
MIT 研究:AI “员工”表现勉强及格,无法取代人类
作者:Judith Murphy 日期:2026年4月3日
麻省理工学院(MIT)的研究人员针对11,000项真实职场任务测试了41个AI模型,结果发现,大多数输出结果仅能达到最低标准,在处理复杂工作时的得分远未达到“优秀”水平。
如果你曾因担心大语言模型(LLM)即将抢走你的饭碗而辗转难眠,麻省理工学院的一项新研究或许能让你吃下一颗定心丸。这项大规模研究的核心发现表明:尽管企业投入了数十亿美元,媒体也不遗余力地炒作,但目前人工智能的水平仅相当于一个“漫不经心的实习生”。在许多场景下,它虽然能勉强跨过合格工作的最低门槛,但一旦涉及精确性、创造力或多步骤推理,它就显得力不从心。
MIT团队对41种不同的语言模型进行了严格测试,其中包括来自OpenAI、Google和Anthropic知名系统。测试基于美国劳工部官方职位描述中的11,000多项文本任务。随后,在相关领域拥有实际专业经验的人类评估员按1到9分的标准对这些输出结果进行了评分。7分被定义为“最低合格”,意味着工作成果无需人工编辑即可直接使用。就目前情况而言,AI模型在所有任务中达到7分的比例约为65%。这听起来似乎尚可,但若看看上限,情况就不容乐观了。无论给予系统多少时间,AI模型获得9分(即“优秀”质量)的概率从未超过50%。当任务需要多步骤处理或细致入微的判断时,这些模型失败的概率往往高于成功的概率。
这些数据清晰地描绘了该技术的长处与短板。对于建筑施工管理和维护物流等领域中那些常规的、文本量大的任务,AI处理起来相对轻松。然而,法律服务和信息技术等高技能领域的情况则截然不同,成功率明显较低。这与我们过去一年在公开场合看到的情况如出一辙。德勤(Deloitte)不得不为两份政府报告(一份在澳大利亚,另一份在加拿大)进行辩解,因为这些报告中充斥着AI生成的虚假信息。CNET和《体育画报》(Sports Illustrated)因悄悄发布AI生成的文章并伪造作者署名而遭到舆论抨击。纽约一家律师事务所因在破产申请文件中使用了AI伪造的引用案例,被迫在法庭上道歉。这项技术不仅仅是有时不够准确,它还会“自信满满地犯错”,从而引发真实的法律和声誉风险。
炒作背后的商业现实
MIT的数据清楚地表明,目前大多数企业的部署策略应侧重于“增强”而非“全面替代”。该研究与……(
来源:
