AI基准测试已失效，我们亟需全新评估体系

观点

AI基准测试已失效。我们亟需一种更优的评估方式。

孤立的测试无法衡量AI的真实影响。与其依赖此类测试，不如转向更具人文关怀、贴合具体情境的评估方法。

作者：安吉拉·阿里斯特杜（Angela Aristidou）存档页面 2026年3月31日

图片插画：萨拉·罗杰斯（Sarah Rogers）/ MITTR | 图片来源：盖蒂图片社（Getty）

数十年来，人工智能一直以“机器是否能超越人类”这一问题为评价标准——从国际象棋、高等数学，到编程与论文写作，AI模型及应用的性能均被置于个体人类完成相同任务的对比框架下进行检验。

这种评估范式颇具吸引力：在具有明确对错答案的孤立问题上开展AI与人类的比拼，易于标准化、可比性高且便于优化，因而能生成排名与新闻标题。

然而问题在于：AI几乎从未以基准测试所设定的方式被实际使用。尽管研究人员与产业界已开始通过从静态测试向更具动态性的评估方法演进，以改善基准测试体系，但这些改进仅部分缓解了问题。其根本原因在于：这些新方法仍是在脱离真实人类团队与组织工作流程的环境中评估AI表现，而AI在现实世界中的真正效能恰恰是在这些复杂协作场景中逐步显现的。

当AI在真空环境中被逐项任务地评估时，它却在充满不确定性、高度复杂的现实环境里运行——通常需要与多人协同互动；其效能（或缺陷）往往只有在长期持续使用后才能显现。这种评估与应用之间的错位，导致我们对AI能力的认知出现偏差，忽视系统性风险，并误判其经济与社会影响。

为应对上述挑战，是时候将评估重心从狭隘的单一指标，转向能够考察AI系统在人类团队、工作流程与组织内部长期运行效果的综合性基准。自2022年起，我深入研究了AI在现实世界中的部署实践，涵盖英国、美国和亚洲的小型企业，以及医疗、人道主义、非营利机构与高等教育领域；同时，我也参与了伦敦与硅谷等全球领先AI设计生态系统的实地调研。基于此，我提出一种新的评估路径，称之为HAIC基准（Human–AI, Context-Specific Evaluation，即“人—AI协同、情境适配型评估”）。

当AI发生故障时会发生什么？

对政府与企业而言，AI基准得分看似比厂商宣传更为客观可靠，是判断某款AI模型或应用是否“足够成熟”并具备实际部署价值的关键依据。试想这样一个场景：一款AI模型在最前沿的基准测试中取得令人瞩目的技术成绩——98%的准确率、突破性的运算速度、极具说服力的输出结果。凭借这些亮眼数据，相关机构可能决定采纳该模型，并投入大量资金与技术资源用于采购与集成。

然而，一旦正式上线运行，基准测试与真实表现之间的落差便迅速暴露无遗。例如，当前已有大量经美国食品药品监督管理局（FDA）批准的AI模型，可在读取医学影像方面实现比资深放射科医生更快、更精准的诊断。然而，在加州核心地区的医院放射科中，这些模型的实际应用效果却远未达到预期——它们常因缺乏临床语境理解、与医生沟通不畅、或难以嵌入现有诊疗流程等问题，导致误诊率上升、工作效率下降，甚至引发医患信任危机。

这正是我们亟需重新审视AI评估范式的紧迫性所在：唯有将评估视角从“单点性能”转向“长期协同效能”，才能真正把握AI在真实社会系统中的作用边界与潜在风险。