DeepMind让LLM自改算法，博弈论表现超越专家

编辑精选

智能体 AI (Agentic AI)

AI 智能体

科技新闻

AI 论文摘要

技术

AI 简讯

人工智能

应用

语言模型

大语言模型

机器学习

最新发布

Google DeepMind 研究让大语言模型重写其博弈论算法——表现超越专家

作者：Michal Sutter 2026年4月3日

在不完全信息博弈（如扑克，即玩家按顺序行动且无法看到彼此私有信息的场景）中设计多智能体强化学习（MARL）算法，历史上一直依赖于人工迭代。研究人员通过直觉和试错来确定加权方案、折扣规则和均衡求解器。Google DeepMind 的研究人员提出了 AlphaEvolve，这是一种由大语言模型（LLM）驱动的进化编程智能体，它通过自动化搜索取代了这一人工过程。

研究团队将此框架应用于两种现有范式：反事实后悔最小化（CFR）和策略空间响应预言机（PSRO）。在这两种情况下，该系统都发现了新的算法变体，其表现与现有的手工设计的最先进基线相当或更优。所有实验均使用 OpenSpiel 框架进行。

背景：CFR 与 PSRO

CFR 是一种迭代算法，它将后悔最小化分解到各个信息集上。在每次迭代中，它会累积“反事实后悔”——即玩家如果采取不同行动本可以获得多少收益——并根据正的累积后悔推导出新的策略。经过多次迭代，时间平均策略会收敛至纳什均衡（NE）。诸如 DCFR（折扣 CFR）和 PCFR+（预测性 CFR+）等变体通过应用特定的折扣或预测更新规则来提高收敛速度，这些规则均通过人工设计开发。

PSRO 则在更高的抽象层级上运行。它为每个玩家维护一个策略种群，通过计算种群策略每种组合的期望效用来构建收益张量（即元博弈），然后使用元策略求解器在种群上生成概率分布。针对该分布训练最佳响应，并迭代地将其添加到种群中。元策略求解器——即种群分布的计算方式——是该论文进行自动化发现的核心设计目标。所有实验均使用精确的最佳响应预言机（通过值迭代计算）以及所有元博弈条目的精确收益值，从而消除了蒙特卡洛采样噪声对结果的影响。

AlphaEvolve 框架

AlphaEvolve 是一个分布式进化系统，它利用大语言模型来变异源代码而非数值参数。其过程如下：使用标准实现初始化一个种群（CFR 实验以 CFR+ 作为种子；两类 PSRO 求解器均以均匀分布 Uniform 作为种子）。在每一代中，根据适应度选择一个父算法；其源代码被传递给一个大语言模型（Gemini 2.5 Pro），并附带一个 pr（提示词 prompt）...