Kimi K2.5 是Moonshot AI于2026年1月发布的开源多模态大模型,参数达1.04万亿(推理时仅激活320亿),采用MoE架构与Agent Swarm智能体集群技术。在关键基准测试中表现突出:SWE-Bench Verified达76.8%,AIME 2025 96.1%,Humanity’s Last Exam 50.2%(高于Claude Opus 4.5的32.0%)。其每百
Kimi 2.5 评测:Moonshot AI 的开源巨兽在 2026 年编程能力上是否优于 Claude?
我本没抱太大期待——说实话。毕竟,又一家中国AI实验室推出了一款在基准测试中表现亮眼、纸面数据令人惊艳,但实际使用却令人失望的模型。这正是我对 Moonshot AI 在 2026 年 1 月 27 日低调发布 Kimi K2.5 时的第一印象。直到我真正开始运行它,才意识到事情远非如此。
仅从核心指标来看就难以忽视:在 SWE-Bench Verified 上达到 76.8%,AIME 2025 测试中高达 96.1%,以及“人类最后的考试”(Humanity’s Last Exam, HLE)中取得 50.2% 的得分——这一成绩甚至超越了 Claude Opus 4.5 的 32.0% 和 GPT-5.2 High 的 41.7%。而这一切仅需每百万输入 token 收费 0.60 美元;相比之下,Claude Opus 的收费为每百万 token 5 美元——差距达 8 倍之多。
真正让我停下刷屏动作的,是其“Agent Swarm”(智能体集群)功能:能够协调多达 100 个专业化的 AI 子智能体并行协作完成单一任务。目前尚无其他前沿模型具备该能力——无论是 GPT、Claude 还是 Gemini 均未实现。
于是,我花了三周时间,将 Kimi K2.5 应用于真实工作流中:包括编码开发、科研分析、视觉处理及文档解读等场景。以下是我所发现的一切,涵盖 Kimi 的真正优势领域与 Claude 依然占优的方面。
来源:
