返回资讯列表
前沿技术

DeepMind让LLM自改算法,博弈论表现超越专家

2026/05/06-231,526 阅读
⚛️

Google DeepMind 推出 AlphaEvolve 框架,利用大语言模型自动重写博弈论算法,取代了传统的人工迭代设计。该系统应用于反事实后悔最小化(CFR)和策略空间响应预言机(PSRO)两种范式,成功发现了表现超越或媲美现有最先进基线的新算法变体。这一突破展示了 LLM 在复杂算法自动发现与优化领域的巨大潜力。

编辑精选

智能体 AI (Agentic AI)

AI 智能体

科技新闻

AI 论文摘要

技术

AI 简讯

人工智能

应用

语言模型

大语言模型

机器学习

最新发布

Google DeepMind 研究让大语言模型重写其博弈论算法——表现超越专家

作者:Michal Sutter 2026年4月3日

在不完全信息博弈(如扑克,即玩家按顺序行动且无法看到彼此私有信息的场景)中设计多智能体强化学习(MARL)算法,历史上一直依赖于人工迭代。研究人员通过直觉和试错来确定加权方案、折扣规则和均衡求解器。Google DeepMind 的研究人员提出了 AlphaEvolve,这是一种由大语言模型(LLM)驱动的进化编程智能体,它通过自动化搜索取代了这一人工过程。

研究团队将此框架应用于两种现有范式:反事实后悔最小化(CFR)和策略空间响应预言机(PSRO)。在这两种情况下,该系统都发现了新的算法变体,其表现与现有的手工设计的最先进基线相当或更优。所有实验均使用 OpenSpiel 框架进行。

背景:CFR 与 PSRO

CFR 是一种迭代算法,它将后悔最小化分解到各个信息集上。在每次迭代中,它会累积“反事实后悔”——即玩家如果采取不同行动本可以获得多少收益——并根据正的累积后悔推导出新的策略。经过多次迭代,时间平均策略会收敛至纳什均衡(NE)。诸如 DCFR(折扣 CFR)和 PCFR+(预测性 CFR+)等变体通过应用特定的折扣或预测更新规则来提高收敛速度,这些规则均通过人工设计开发。

PSRO 则在更高的抽象层级上运行。它为每个玩家维护一个策略种群,通过计算种群策略每种组合的期望效用来构建收益张量(即元博弈),然后使用元策略求解器在种群上生成概率分布。针对该分布训练最佳响应,并迭代地将其添加到种群中。元策略求解器——即种群分布的计算方式——是该论文进行自动化发现的核心设计目标。所有实验均使用精确的最佳响应预言机(通过值迭代计算)以及所有元博弈条目的精确收益值,从而消除了蒙特卡洛采样噪声对结果的影响。

AlphaEvolve 框架

AlphaEvolve 是一个分布式进化系统,它利用大语言模型来变异源代码而非数值参数。其过程如下:使用标准实现初始化一个种群(CFR 实验以 CFR+ 作为种子;两类 PSRO 求解器均以均匀分布 Uniform 作为种子)。在每一代中,根据适应度选择一个父算法;其源代码被传递给一个大语言模型(Gemini 2.5 Pro),并附带一个 pr(提示词 prompt)...

来源:

AI人工智能科技前沿技术