阿里Qwen团队推新算法，让AI模型思考更深入

AI 研究

复制链接至剪贴板分享本文前往评论区

阿里巴巴 Qwen 团队通过新算法让 AI 模型实现更深层次思考

Jonathan Kemper 查看 Jonathan Kemper 的 LinkedIn 主页 2026年4月5日

*Nano Banana Pro 由 THE DECODER 提示生成*

要点

* 阿里巴巴 Qwen 团队开发了一种新的推理模型训练算法，该算法根据每个步骤对后续推理链的影响程度为单个 Token（词元）分配不同的权重，而非对所有 Token 一视同仁。 * 该方法显著延长了推理链，模型学会了独立验证中间结果并交叉检查替代方案，这种行为是从加权奖励信号中自然涌现的。 * 目前，该算法仅在数学任务上得到了验证，尚不清楚其是否能泛化到其他领域。团队计划将训练系统开源。

*询问关于这篇文章……*

搜索

强化学习在推理模型上遭遇瓶颈，因为每个 Token 获得的奖励都是相同的。阿里巴巴 Qwen 团队提出的一种新算法解决了这个问题，它根据每个步骤对后续内容的塑造程度进行加权，从而使思维过程的长度增加了一倍。

当大型语言模型通过强化学习学习推理时，通常在每个生成的回答结束时获得简单的“通过/失败”判断。然后，该奖励被均匀分摊到序列中的每一个 Token 上。无论该 Token 是标志着关键的逻辑转折点，还是仅仅是一个逗号，都无关紧要。

Qwen 团队表示，这种粗糙的信用分配是推理模型在常见训练方法（如 GRPO（组相对策略优化））下遭遇天花板的主要原因。推理链增长到一定长度后就会停滞不前。

*广告*

通过 Future-KL Influenced Policy Optimization (FIPO)，团队希望突破这一瓶颈。算法不再单独评估每个 Token，而是向前看：生成这个特定 Token 后，模型在下游的行为会发生怎样的变化？

*广告*

*DEC_D_Incontent-1*

FIPO 计算所有后续 Token 的累积概率偏移，并利用该信号更精确地分配奖励。开启有效推理链的 Token 获得更大的份额。将模型引入死胡同的 Token 则获得较少奖励。

FIPO 无需单独模型即可媲美基于 PPO 的方法

此前解决奖励平坦问题的尝试主要依赖于基于 PPO 的方法，这些方法使用单独的价值模型来估算每个 Token 的收益分数。

*广告*

这种辅助模型通常需要在长思维链数据上进行预训练，这意味着外部知识的渗入。研究人员表示，这使得很难判断性能提升是源于算法本身，还是仅仅继承自预训练的辅助模型。FIPO 完全跳过了辅助模型，但仍能提供相当的结果。

FIPO 优于基线算法……