Kimi 2.5 编码能力评测：是否超越 Claude？（2026）

Kimi 2.5 评测：Moonshot AI 的开源巨兽在 2026 年编程能力上是否优于 Claude？

我本没抱太大期待——说实话。毕竟，又一家中国AI实验室推出了一款在基准测试中表现亮眼、纸面数据令人惊艳，但实际使用却令人失望的模型。这正是我对 Moonshot AI 在 2026 年 1 月 27 日低调发布 Kimi K2.5 时的第一印象。直到我真正开始运行它，才意识到事情远非如此。

仅从核心指标来看就难以忽视：在 SWE-Bench Verified 上达到 76.8%，AIME 2025 测试中高达 96.1%，以及“人类最后的考试”（Humanity’s Last Exam, HLE）中取得 50.2% 的得分——这一成绩甚至超越了 Claude Opus 4.5 的 32.0% 和 GPT-5.2 High 的 41.7%。而这一切仅需每百万输入 token 收费 0.60 美元；相比之下，Claude Opus 的收费为每百万 token 5 美元——差距达 8 倍之多。

真正让我停下刷屏动作的，是其“Agent Swarm”（智能体集群）功能：能够协调多达 100 个专业化的 AI 子智能体并行协作完成单一任务。目前尚无其他前沿模型具备该能力——无论是 GPT、Claude 还是 Gemini 均未实现。

于是，我花了三周时间，将 Kimi K2.5 应用于真实工作流中：包括编码开发、科研分析、视觉处理及文档解读等场景。以下是我所发现的一切，涵盖 Kimi 的真正优势领域与 Claude 依然占优的方面。