阿里巴巴Qwen团队推出新算法FIPO,突破强化学习推理瓶颈。该算法摒弃传统的平均奖励分配,根据Token对后续推理的影响程度进行加权,使关键步骤获得更高奖励。该方法显著延长了推理链,模型涌现出自主验证与交叉检查能力。目前FIPO已在数学任务上验证有效,且无需辅助模型即可媲美PPO方法,团队计划将其开源。
AI 研究
复制链接至剪贴板 分享本文 前往评论区
阿里巴巴 Qwen 团队通过新算法让 AI 模型实现更深层次思考
Jonathan Kemper 查看 Jonathan Kemper 的 LinkedIn 主页 2026年4月5日
*Nano Banana Pro 由 THE DECODER 提示生成*
要点
* 阿里巴巴 Qwen 团队开发了一种新的推理模型训练算法,该算法根据每个步骤对后续推理链的影响程度为单个 Token(词元)分配不同的权重,而非对所有 Token 一视同仁。 * 该方法显著延长了推理链,模型学会了独立验证中间结果并交叉检查替代方案,这种行为是从加权奖励信号中自然涌现的。 * 目前,该算法仅在数学任务上得到了验证,尚不清楚其是否能泛化到其他领域。团队计划将训练系统开源。
*询问关于这篇文章……*
搜索
强化学习在推理模型上遭遇瓶颈,因为每个 Token 获得的奖励都是相同的。阿里巴巴 Qwen 团队提出的一种新算法解决了这个问题,它根据每个步骤对后续内容的塑造程度进行加权,从而使思维过程的长度增加了一倍。
当大型语言模型通过强化学习学习推理时,通常在每个生成的回答结束时获得简单的“通过/失败”判断。然后,该奖励被均匀分摊到序列中的每一个 Token 上。无论该 Token 是标志着关键的逻辑转折点,还是仅仅是一个逗号,都无关紧要。
Qwen 团队表示,这种粗糙的信用分配是推理模型在常见训练方法(如 GRPO(组相对策略优化))下遭遇天花板的主要原因。推理链增长到一定长度后就会停滞不前。
*广告*
通过 Future-KL Influenced Policy Optimization (FIPO),团队希望突破这一瓶颈。算法不再单独评估每个 Token,而是向前看:生成这个特定 Token 后,模型在下游的行为会发生怎样的变化?
*广告*
*DEC_D_Incontent-1*
FIPO 计算所有后续 Token 的累积概率偏移,并利用该信号更精确地分配奖励。开启有效推理链的 Token 获得更大的份额。将模型引入死胡同的 Token 则获得较少奖励。
FIPO 无需单独模型即可媲美基于 PPO 的方法
此前解决奖励平坦问题的尝试主要依赖于基于 PPO 的方法,这些方法使用单独的价值模型来估算每个 Token 的收益分数。
*广告*
这种辅助模型通常需要在长思维链数据上进行预训练,这意味着外部知识的渗入。研究人员表示,这使得很难判断性能提升是源于算法本身,还是仅仅继承自预训练的辅助模型。FIPO 完全跳过了辅助模型,但仍能提供相当的结果。
FIPO 优于基线算法……
来源:the-decoder.com
