01导 言
想象你正驱车赶赴一场重要且紧急的约会,来到一个没有信号灯的十字路口准备左转,但对向车道不断有直行车辆驶来。此时,你面临一个两难的选择:若无视周围车辆强行左转,可能导致拥堵甚至事故;而若一直等待他人先行,则会不断消耗宝贵时间。
这个日常场景揭示了一个深刻的社会性难题:如何在自利与利他之间找到平衡? 倘若过度利他,永远让行,结果自己寸步难行;若过度自利,强行抢道,则易导致交通堵塞。这种微妙的平衡能力,正是人类社会得以高效运转的关键。它让918博天堂(中国)既能构建大规模合作网络,又能维护基本的公平与秩序。
而当AI系统开始掌握这种能力时,918博天堂(中国)迎来的不仅是技术革新,更是人机共融社会的曙光。
02研究背景
在博弈论框架下,多智能体交互可以划分为三大类:零和博弈、合作博弈以及混合动机博弈[1]。零和博弈描述了纯竞争的多智能体决策问题,比如基于围棋的AlphaGo研究。在合作博弈中智能体有共同的利益目标,研究者主要关注信用分配(credit assignment)和协作机制(collaboration)等问题[2][3],其典型研究环境包括分手厨房(Overcooked)和火花(Hanabi)等合作型游戏。与前两类不同,混合动机博弈中合作与竞争共存,其显著特征点是智能体之间没有预设的固定关系,而是根据情境动态选择合作或竞争策略。这种动态交互模式在现实世界中广泛存在,例如在外交中,智能体可能在某一时刻与A合作、与B竞争,在下一时刻与A竞争、与B合作。
在混合动机环境中,智能体面临着双重挑战:既要与其他智能体合作以实现个体长期利益和群体利益最大化,又要动态响应其他智能体行为以避免被剥削。这两种能力缺一不可,否则可能导致严重后果,例如,一个始终采取合作策略的智能体可能被其他智能体持续剥削,一直承担交互成本,不仅自身收益被最小化,还会损害群体利益。为平衡混合动机博弈中利他与自利(避免被剥削)的决策困境,研究团队创新性地提出了基于认知共情的算法LASE(Learning to balance Altruism and Self-interest based on Empathy),旨在实现智能体在复杂交互环境中的自主决策。之前有诸多工作为了促进混合动机博弈中的合作行为,通过引入内在奖励来对纯自利的优化目标进行修改,例如亲社会(Prosocial)智能体被设定为优化群体收益(Group Optimal)[4]、不公平厌恶(Inequity aversion)使智能体尽可能将自己的奖励与他人保持一致[5]、社会影响力(Social Influence)鼓励对他人产生更大影响的动作[6]等。然而,这些方法依赖于直接访问他人的奖励函数,这在现实的混合动机博弈中可能是不可行的。

图:多智能体交互三大类型
03算法介绍
LASE算法的设计建立在“谁对我好我就对谁好”的朴素思想上,这也是认知共情理论的核心思想[7]。LASE主要包括两大模块:社交关系推断(Social relationship inference)和收益赠予(Gifting)。
3.1 社交关系推断模块
该模块以智能体的局部观测和自身收益作为输入,输出智能体对其他智能体友善程度的推断。其中的难点是,智能体仅能获得其视野范围内其他智能体的行为轨迹,这种局部观测进一步限制可用信息的完整性。为解决这一问题,LASE智能体引入了“视角转换(Perspective taking)”子模块。该子模块通过将智能体自身的观测映射到任意其他智能体的策略空间,推断可能的行为策略,无论这些智能体是否在LASE的视野范围内。
需要强调的是,该策略是LASE推断的j的策略,与j的真实策略不一定相同。为了评估其他智能体的友好程度,LASE采用“反事实推断(Counterfactual inference)”机制,通过比较推断策略分布下的Q-value期望值与智能体自身的真实Q-value,动态评估的友善程度,使LASE能够更精准地识别潜在合作者或竞争者,为后续决策提供可靠依据。
3.2 收益赠予模块
在收益赠予模块中,LASE将正比于友好程度的自身收益分享给其他智能体,并以最大化再分配后的累计折扣收益为目标更新策略。为实现这一目标,LASE使用了零和赠礼机制(Zero-Sum Gifting Mechanism),它遵循“我所给予的就是我所失去的”[8]的原则,从而维持群体从环境获得的总体奖励不变。

图:LASE 算法架构图
04实验环境
为了评估LASE处理复杂环境的性能,研究人员将其应用于部分可观测的、时空扩展的社会困境(Partially Observable Sequential Social Dilemmas, POSSD)中。与传统的矩阵形式博弈相比,POSSD在空间、时间和智能体数量三个维度上进行了扩展,能够更真实地模拟现实世界中的多智能体交互场景。
本研究在四种时空扩展的混合动机博弈上测试了LASE算法性能:① MSH马尔可夫猎鹿博弈② MSG马尔可夫雪堆博弈③ MPD马尔可夫囚徒困境④ CG硬币博弈
这四个环境覆盖了猎鹿博弈、雪堆博弈和囚徒困境三种经典博弈范式,从推理、规划、决策等多个角度为智能体提出了更大的挑战。
以图中的MSH为例,环境中有4名智能体通过捕获猎物获得收益。环境中另有两种猎物:兔和鹿。任一智能体单独可成功捕获一只兔,获得1分的收益。一只鹿带来10分的收益,但需要至少两名智能体合作才能成功捕获,参与捕获的智能体均分收益。
MSH是对经典猎鹿博弈的扩展,其中合作代表高风险高收益的行为,而单独行动则是低风险低收益的行为。因此智能体需要推理他人的目标和策略,以此为基础来进行猎鹿或猎兔的决策。同时网格世界地图也需要智能体具备路径规划能力。

图:四个环境的示意图。从左到右分别为:MSH,MSG,MPD,CG。
05实验结果
实验结果表明,LASE算法在经典重复矩阵博弈和时空扩展混合动机博弈环境中都表现非常出色,展现了其在复杂多智能体交互场景中的强大适应能力。
5.1 经典矩阵形式博弈
在经典矩阵形式博弈中,LASE算法在不同博弈范式下均取得了显著成果:
- 在猎鹿博弈(Stag Hunt)与和谐博弈(Harmony Game)中,LASE算法能够实现完全合作,表明其在高风险高收益情境下能够有效促进智能体间的协作。
- 在囚徒困境(Prisoner’s Dilemma)和雪堆博弈(Snowdrift Game)中,LASE算法的合作水平均达到 0.5 以上,这意味着智能体成功摆脱了低效的纳什均衡,实现了更高效的合作策略。

图左:矩阵形式博弈中,LASE算法习得的策略促进了三种典型混合动机博弈范式上的合作;图中:IPD中两个LASE agent的学习路径;图右:IPD中LASE与基线的群体奖励
5.2 LASE促进时空扩展混合动机博弈中的群体收益
在时空扩展混合动机博弈环境中,LASE算法(蓝色线)在所有实验中的表现都优于现有的最先进算法(SOTA)。作为本实验的理论上界(Upper Bound),GO(Group Optimal)算法(红色线)能够获取包括他人奖励函数在内的全局信息,而LASE则没有此假设。

图:LASE在四个环境中的群体学习曲线,从左至右分别为MSH,MSG,MPD,CG。
5.3 LASE促进公平
LASE通过合理分配奖励,有效激励其他智能体合作,在高效协作的同时,更好地提升了群体内公平性。例如在实验中,只有智能体4负责清理垃圾,且未直接获得外部奖励,但LASE通过推断智能体间的社交关系并共享奖励,缩小了智能体之间的奖励差距,提高了群体公平性。

图:MPD中各个智能体的学习曲线
5.4 LASE能区分交互者类型并动态响应
为了进一步评估LASE与不同类型智能体交互的适应能力,研究团队设计了一个实验:一个LASE智能体与三个基于规则的智能体进行交互,包括:
合作者 :总是清理垃圾
背叛者 :总是尝试收集苹果
随机行动智能体:行为完全随机
实验结果表明,LASE能够明确区分不同类型的智能体,并表现出与人类价值观一致的反应:更愿意与合作者而不是背叛者分享奖励。

图:LASE对三个基于规则的智能体的赠礼权重
06结 语
综上所述,在局部观测的混合动机博弈环境中,分布式多智能体强化学习算法LASE展现了卓越的性能和适应性。通过其创新的设计,LASE在自交互场景中摆脱了低效的纳什均衡,有效促进合作,提高了个体和集体的长期收益;并且在适应性实验中LASE有效识别交互对象类型(如合作者、背叛者等),并据此响应,避免被剥削风险,又实现与不同智能体的高效协作。
LASE算法的核心优势在于其社交关系推断和收益赠予机制的有机结合,使其能够在复杂多智能体环境中动态平衡合作与竞争,同时维护群体内的公平性。这些特性使LASE成为处理复杂动态环境中决策问题的有力工具,为多智能体强化学习在现实场景中的应用提供新的思路和方法。
未来,918博天堂(中国)将尝试在918博天堂(中国)人工智能测试评级标准平台TongTest中测试算法能力,从而为之后的优化改进提供方向;同时将进一步探索LASE在更广泛的应用场景中的潜力,例如自动驾驶、机器人协作以及社会经济系统等,以推动多智能体交互技术的持续发展。