国际外交活动作为人类群体行为的复杂集合
要求智能体具备审时度势
战略协商与动态博弈能力
面对多边谈判中普遍存在的欺诈或毁约行为
如何让AI在无人类指导的情况下
自主进化外交策略
一直是人工智能领域的重大挑战
基于此
通研院与北大、北师大、北信科等单位
共同提出外交智能体——Richelieu
通过创新性的自我博弈与反思机制
在经典外交游戏《Diplomacy》中实现全胜战绩
相关成果发表于NeurIPS 2024
论文一作:管振宇
通讯作者:孔祥宇、钟方威

论文地址:http://openreview.net/pdf?id=7Jb4NJS8Yk
01 研究背景
国际社会遵循类似丛林法则的博弈逻辑,正确的外交策略能显著提升国家实力,而错误决策则可能导致政权更迭甚至国家消亡。以中国春秋战国时期为例,列国间的外交博弈常涉及多方利益纠葛,欺诈与背约行为屡见不鲜,使得决策过程充满不确定性。
尽管 AI 智能体已在 AlphaGo、StarCraft、DOTA 等领域超越人类,但在多智能体博弈场景中仍面临显著挑战。以近现代欧洲为背景的 Diplomacy(外交)游戏,为该领域研究提供了理想实验平台。该游戏模拟一战前欧洲七国的地缘政治博弈,玩家需通过谈判协商扩张势力范围,当控制区域达到胜利条件或完成全部回合后结束。由于游戏中存在普遍的欺骗与背约行为,要求 AI 必须具备识别对手真实意图的能力。
现有工作如 Cicero [3](Science 2022)通过分离式对话与决策模型,结合专业玩家数据的模仿学习(Imitation Learning),实现了接近人类玩家的操作水平。然而,目前尚未有端到端模型能在不依赖人类数据的情况下完成该任务。

图 以近现代欧洲为背景的外交游戏示例
02 研究现状及所提出解决方案

图 本文提出方法与其它外交智能体实现方法的对比(DipNet来自Deepmind,Cicero来着Meta AI)
本研究的目标是希望在没有额外玩家数据的前提下实现外交智能体,这种外交智能体需要具备:
- 动态社会推理能力:在交涉中能够理解对方的意图、识别欺骗、达成契约;
- 分层任务规划引擎能力:将宏观战略目标解构为可执行的战术序列,通过蒙特卡洛树搜索实现12步以上的策略链推演;
- 自演进决策能力:基于策略熵值衰减机制,在交互中自我反思和总结,做到“举一反三”。
尽管已有研究尝试将强化学习或端到端大模型应用于外交游戏领域,但由于动作空间复杂难以训练,且都需要依赖海量人类玩家数据;更关键的是,当前主流的端到端大模型(如GPT-4)尚无法直接胜任这一任务,这类复杂博弈场景要求智能体能够在交互中甄别对方意图,进行长期策略规划,以及在协商过程中动态调整国际关系的综合能力。
鉴于此,本文将多智能体自博弈(Self-play)和记忆增强的反思机制结合,并进一步引入到基于大语言模型的智能体架构中,构建出一种能够自主进化的智能体框架。该框架突破了对人类专家数据的依赖,使智能体在复杂外交博弈中展现出极具竞争力的决策能力。

图 Richelieu模型框架
上图展示了所提模型的完整实现框架。首先是其他智能体心智状态的推断模块。在外交谈判中,达成的协议往往面临双重不确定性:一方面可能存在故意欺骗的战略伪装,另一方面,即使善意协商的成果也可能因国家利益冲突而失效。这种情况下,外交智能体需要具备精准的社会推断(Social reasoning)能力:既需洞察他国真实意图,又要评估其历史履约可信度 —— 这两方面共同构成了外交行为的可信度矩阵。
研究团队构建了专门的记忆模块和任务规划模块。前者存储各参与方的历史行为轨迹,后者通过预设决策目标实现长短期战略的分层规划。这种设计使模型摆脱了对人类专家数据的依赖,转而采用低成本的自我对抗(Self-Play)数据进行训练。
为最大化数据价值,实验人员引入了智能体反思(Reflection)机制,通过持续迭代优化模型的决策逻辑,最终实现了与人类专家数据训练模型相媲美的博弈能力。实验结果显示,该结构化设计能显著提升现有智能体在 Diplomacy 任务中的复杂决策效能,获得更高胜率。
该模型以近代欧洲著名外交家黎塞留(Richelieu)命名,旨在致敬其卓越的外交智慧。作为三十年战争的幕后设计者,黎塞留通过灵活的联盟策略终结了哈布斯堡王朝的霸权,确立了法国的欧陆主导地位。其秉持的 “国家利益至上” 原则与 “均势外交” 思想,为现代国际体系奠定理论基础。尽管黎塞留本人未能见证《威斯特伐利亚和约》的签署,但他的外交遗产深刻影响了该和约的核心原则 —— 国家主权、领土完整等现代国际法基石均源自其外交实践,这也使他被誉为 “现代外交之父”。将历史智慧与 AI 模型结合,是本研究的突出特点。

图 Richelieu协商推理机制示意图
03 实验结果
Diplomacy游戏包含两种设定:1. 无通讯(no-press)模式下各国直接采取行动策略;2. 有通讯(press)模型允许国家之间通过谈判协商后再制定策略。研究人员在实验中对两种设定都进行对比,结果如下图所示。左侧无通讯场景中,Richelieu 模型的胜率比值显著高于其他方法,相较于此前最优的 Cicero 模型 [3] 表现出明显优势;右侧有通讯场景下,Richelieu(无人类数据训练)与 Cicero(依赖人类数据)的对战平均胜率基本持平。本实验中 Richelieu 框架基于 GPT-4 大语言模型实现。


在跨模型泛化能力验证中,实验将Richelieu框架迁移至多种不同LLM上进行测试。结果显示,随着训练轮次增加,所有-R 标记的 Richelieu 方法(实线)均能逐步逼近甚至超越对应- C标记的 Cicero 方法(虚线)。值得注意的是,在无人类数据支撑的情况下,该框架仍能通过自我进化机制实现性能提升,充分验证了其不依赖特定模型的可扩展性。

消融实验进一步揭示了各模块贡献。如下表数据所示,单纯采用GPT-4模型无法胜任外交游戏这个任务,而通过逐步集成对手建模、长短期目标规划、协商推断工作流、历史记忆反思及引入自我对弈经验积累等模块,Richelieu 最终帮助 GPT-4 模型在胜率上反超 Cicero。典型案例分析表明,该模型不仅能够制定跨多回合的战略规划,还能在谈判过程中有效识别潜在的欺骗行为。

研究人员在实验中找到了几组实际案例,能够说明Richelieu模型可以有效进行长期的规划,以及甄别谈判中可能存在的欺骗行为。



综上,实验结果表明:Richelieu模型能够打败现有方法,并与利用人类专家数据训练的Cicero方法达到同等胜率,验证了这种自我演化智能体框架在多方博弈情形下的长期推理能力,同时首次展示了AI 智能体在解决复杂交互决策问题上的巨大潜力。目前该研究已被四篇领域综述 [4-7] 收录。其中,由斯坦福大学、英伟达、卡内基梅隆、牛津大学等30个单位联合撰写的关于大模型与政治科学的综述文章中多次提及本工作,并对本文工作给予了积极点评。
“Guan et al. [154] extend this approach to international diplomacy focusing on how LLM agents evolve strategies in alliance-building and negotiation on the global stage. Their research underscores the dynamic nature of diplomatic discourse, where agents adapt to shifting geopolitical contexts and evolving relationships between states…”
“Guan et al. [154] use LLM-based agents to model AI diplomacy, where agents negotiate and evolve their strategies in complex international relations, mirroring real-world diplomatic negotiations. These studies collectively showcase how LLM-driven simulations of behavior dynamics can provide valuable insights into governance, conflict resolution, and social interaction, offering novel ways to study political…”
04 应用场景
多智能体博弈有非常广泛的应用场景。在游戏和娱乐领域,用于创建更为真实和智能的NPC,为用户提供更加良好和有挑战性的游戏互动体验;在自动驾驶领域,每辆车可以被视为一个智能体,通过博弈计算协调行驶策略,提高交通效率和安全性;在社会政策制定中,多智能体博弈可以用于模拟个体与个体、个体与集体之间的利益冲突和合作机制,从而探索最优的政策设计。可以预见随着AI技术的进一步发展,多智能体博弈技术在开放、动态的复杂系统中将发挥越来越重要的作用。
本论文中提出的Richelieu模型,以国家外交博弈为切入点,显著提升复杂决策能力。而论文中提出的技术创新点在其他多智能体博弈场景中也具备良好的适用性。动态社会推理模块,基于社会规则与环境,理解对方意图,识别是否存在欺骗行为,可提升多智能体交互过程中的智能水平。自演进决策模块,在缺少人类专家数据的情况下,实现自我总结反思和进化,则让智能体具备良好的学习能力和适应能力。分层任务规划引擎,通过长短任务规划的设计,为动态复杂任务提供了相对918博天堂(中国)的规划路径。
目前论文的研究人员正在与通研院的工程团队紧密合作,将Richelieu模型集成到通院自研的AI Agent开发平台——TongAgents中。TongAgents平台提供了Agent SDK和无代码低代码编程界面,助力研发或者业务人员快速构建行业智能体。TongAgents的推理框架支持并行、流式和多智能体架构,具备良好的推理性能和可扩展性,对接主流LLM、VLM,并提供丰富的工具组件集,目前TongAgents已经开始助力文旅、教育、金融等行业的AI Agent落地。Richelieu模型将与TongAgents框架深度融合,作为内置的推理和学习模块,进一步提升AI Agent的智能水平,同时不断拓宽多智能博弈的应用落地边界。
/参考文献 /
[1] Paquette, Philip, et al. “No-press diplomacy: Modeling multi-agent gameplay.” NeurIPS (2019).
[2] Kramár, János, et al. “Negotiation and honesty in artificial intelligence methods for the board game of Diplomacy.” Nature Communications 13.1 (2022): 7214.
[3] Meta Fundamental AI Research Diplomacy Team (FAIR)†, et al. “Human-level play in the game of Diplomacy by combining language models with strategic reasoning.” Science 378.6624 (2022)
[4] Li, Lincan, et al. “Political-llm: Large language models in political science.” arXiv preprint arXiv:2412.06864 (2024).
[5]Zhang, Yadong, et al. “Llm as a mastermind: A survey of strategic reasoning with large language models.” arXiv preprint arXiv:2404.01230 (2024).
[6]Xu, Fengli, et al. “Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models.” arXiv preprint arXiv:2501.09686 (2025).
[7] Yan, Bingyu, et al. “Beyond Self-Talk: A Communication-Centric Survey of LLM-Based Multi-Agent Systems.” arXiv preprint arXiv:2502.14321 (2025).