國際智能體和多智能體系統(tǒng)會議(International Conference on Autonomous Agents and Multi-agent Systems,AAMAS),是智能體和多智能體系統(tǒng)領(lǐng)域最大和最有影響力的國際學術(shù)會議之一。智能體研究作為人工智能領(lǐng)域的重要分支,具有巨大的革新潛力與應(yīng)用前景,其發(fā)展對于理解人類智能本質(zhì),推動人工智能技術(shù)發(fā)展,解決社會問題具有重要價值。第23屆AAMAS于5月6日至10日在新西蘭召開。自動化所多篇研究論文被本屆AAMAS錄用,并參與組織了兩項智能體賽事。
一、研究論文
1.面向連續(xù)控制的一致性策略
Boosting Continuous Control with Consistency Policy
論文作者:陳宇輝,李浩然,趙冬斌
深度強化學習團隊提出了一種新的基于一致性模型(Consistency Model)的強化學習策略表征方法——Consistency Policy with Q-Learning (CPQL)。該方法使用單步逆擴散過程從高斯噪聲中生成動作用于智能體決策。通過建立從逆擴散軌跡到期望策略的映射,解決了使用值函數(shù)更新基于擴散模型策略時的時間效率低下和非精確引導問題。通過理論證明了該方法可以實現(xiàn)對離線強化學習策略優(yōu)化的精確引導,并且可以輕松擴展到在線強化學習任務(wù)。實驗結(jié)果表明,CPQL在11個離線任務(wù)和21個在線任務(wù)上實現(xiàn)了新SOTA性能。同時與基于擴散模型的方法相比,推理速度提高了近45倍。
CPQL正向擴散過程和逆向引導擴散過程: 給定一個從動作逐漸加噪聲的 ODE軌跡,一致性策略學習軌跡上的任意點到最優(yōu)動作的映射。由于一致性策略單步迭代生成動作,因此大大加速策略訓練和推理的時間。
論文鏈接:https://arxiv.org/abs/2310.06343
代碼開源:https://github.com/cccedric/cpql
?
2.?基于反事實信譽分配的協(xié)作多智能體強化學習算法
Aligning Credit for Multi-Agent Cooperation via Model-based Counterfactual Imagination
論文作者:柴嘉駿、傅宇千、趙冬斌、朱圓恒
現(xiàn)有基于模型的多智能體強化學習方法仍采用為單智能體環(huán)境設(shè)計的訓練框架,導致現(xiàn)有算法對多智能體協(xié)作的促進不足。該研究提出了一種新穎的基于模型的多智能體強化學習方法,稱為多智能體反事實Dreamer(MACD)。其引入了一種集中式想象與分布式執(zhí)行框架,用于生成更高質(zhì)量的想象數(shù)據(jù)以進行策略學習,從而進一步提高算法的樣本效率,并通過生成額外的反事實軌跡評估單一智能體對整體的貢獻,進而解決信譽分配和非平穩(wěn)問題。研究中提供了對應(yīng)的理論推導,表明該反事實策略更新規(guī)則能夠提升多智能體協(xié)作學習目標。實驗結(jié)果驗證了該研究在樣本效率、訓練穩(wěn)定性和最終合作性能方面相較于幾種最先進的無模型和有模型的多智能體強化學習算法的優(yōu)越性。消融研究和可視化演示進一步強調(diào)了該訓練框架以及其反事實模塊的重要性。
MA-RSSM框架。(a) MACD與已有算法框架的對比。(b) 集中式想象世界模型。智能體將在該模型中建模整個系統(tǒng)的狀態(tài)轉(zhuǎn)移過程。(c) 想象空間內(nèi)進行的集中式預(yù)測。通信模塊聚合來自所有智能體的輸入信息,并生成智能體i的通信特征。
?
3.多智能體強化學習中的智能體策略距離度量
Measuring Policy Distance for Multi-Agent Reinforcement Learning
論文作者:扈天翼、蒲志強;艾曉琳;丘騰海;易建強
策略多樣性對于提升多智能體強化學習的效果起著至關(guān)重要的作用。盡管現(xiàn)在已經(jīng)有許多基于策略多樣性的多體強化學習算法,但是目前尚缺乏一個通用的方法來量化智能體之間的策略差異。測量策略差異性不僅能夠方便評估多智能體系統(tǒng)在訓練中的多樣性演化,還有助于為基于策略多樣性的算法設(shè)計提供指導。為此,我們提出了MAPD,一個通用的多智能體策略距離度量方法。不同于直接量化形式各異的動作分布間的距離,該方法通過學習智能體決策的條件表征來間接量化智能體的策略距離。我們還開發(fā)了MAPD的擴展版本CMAPD,其能夠量化智能體策略在特定傾向上的差異,如兩個智能體在攻擊傾向和防御傾向上的策略差異。基于MAPD和CMAPD的在線部署,我們設(shè)計了一套多智能體動態(tài)參數(shù)共享算法MADPS。實驗表明我們的方法在測量智能體策略差異和特定行為傾向上的差異是有效的。而且,與其他參數(shù)共享方法相比,MADPS展示了更優(yōu)越的性能。
學習智能體決策的條件表征
論文鏈接:https://arxiv.org/pdf/2401.11257
代碼鏈接:https://github.com/Harry67Hu/MADPS
?
4.TaxAI: 動態(tài)經(jīng)濟仿真器和多智能體強化學習算法基準
TaxAI: A Dynamic Economic Simulator and Benchmark for Multi-Agent Reinforcement Learning
論文作者:米祈睿,夏思宇,宋研,張海峰,朱勝豪,汪軍
稅收是政府促進經(jīng)濟增長和保障社會公正的關(guān)鍵手段。但是,準確預(yù)測多樣的自利家庭的動態(tài)策略是非常困難的,這對政府制定有效的稅收政策構(gòu)成了挑戰(zhàn)。多智能體強化學習(MARL),憑借其在模擬部分可觀測環(huán)境中的其他智能體、以及適應(yīng)性學習求解最優(yōu)策略的能力,非常適合去解決政府與眾多家庭間的動態(tài)博弈問題。盡管MARL展現(xiàn)出比遺傳算法和動態(tài)規(guī)劃等傳統(tǒng)方法更大的潛力,但目前仍缺乏大規(guī)模的多智能體強化學習經(jīng)濟模擬器。因此,我們基于Bewley-Aiyagari經(jīng)濟模型,提出了一個名為 TaxAI 的MARL環(huán)境,用于模擬包括眾多家庭、政府、企業(yè)和金融中介在內(nèi)的動態(tài)博弈。我們的研究在TaxAI上對2種傳統(tǒng)經(jīng)濟方法與7種MARL方法進行了對比,證明了MARL算法的有效性和優(yōu)越性。更重要的是,TaxAI在模擬政府與高達10,000戶家庭之間的動態(tài)互動及其與真實數(shù)據(jù)的校準能力上,都大幅提升了模擬的規(guī)模和現(xiàn)實性,使其成為目前最為逼真的經(jīng)濟模擬器。
圖1. Bewley-Aiyagari模型動力學
圖2.?政府與家庭智能體之間的部分可觀測馬爾科夫博弈?
論文鏈接:https://arxiv.org/abs/2309.16307
代碼鏈接:https://github.com/jidiai/TaxAI
?
5.谷歌足球環(huán)境中的多智能體強化學習研究:回顧、現(xiàn)狀和展望
Boosting Studies of Multi-Agent Reinforcement Learning on Google Research Football Environment: the Past, Present, and Future
論文作者:宋研,江河,張海峰,田政,張偉楠,汪軍
盡管Google Research Football(GRF)在其原始論文中最初是作為單智能體環(huán)境進行基準測試和研究,但近年來,越來越多的研究人員開始關(guān)注其多智能體性質(zhì),將其作為多智能體強化學習(MARL)的測試平臺,尤其是在合作場景中。然而,由于缺乏標準化的環(huán)境設(shè)置和統(tǒng)一的多智能體場景評估指標,各研究之間難以形成一致的理解。此外,由于5對5和11對11的全局游戲場景的訓練復(fù)雜度極高,相關(guān)深入研究有限。為了彌補這些不足,本文不僅通過標準化環(huán)境設(shè)置在不同場景(包括最具挑戰(zhàn)性的全局游戲場景)中進行合作學習算法的基準測試,還從多個角度討論了增強足球人工智能的方法,并介紹了不局限于多智能體合作學習的相關(guān)研究工具。具體來說,我們提供了一個分布式和異步的基于種群的自我對抗博弈框架,該框架包含多樣化的預(yù)訓練策略,以實現(xiàn)更高效的訓練;我們還提供了兩個足球分析工具,以進行更深入的研究;此外,我們還提供了一個在線排行榜,以進行更廣泛的評估。這項工作旨在推進在谷歌足球環(huán)境上的相關(guān)多智能體強化學習的研究,最終目標是將這些技術(shù)部署到現(xiàn)實世界的應(yīng)用中,如體育分析等。
圖1.?在六個Academy足球場景中不同多智能體強化學習算法的效果對比
圖2. 分布式異構(gòu)種群自博弈訓練框架示意圖
論文鏈接:https://arxiv.org/abs/2309.12951
?
6.針對自然語言約束的基于預(yù)訓練語言模型的安全強化學習算法
Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models
論文作者:婁行舟,張俊格,王梓巖,黃凱奇,杜雅麗
針對基于自然語言約束的安全強化學習中,現(xiàn)有方法對復(fù)雜形式自然語言約束表征能力、處理能力不足,并且將自然語言約束轉(zhuǎn)化為智能體可學習的代價函數(shù)需要大量的特定領(lǐng)域知識的問題,我們提出使用預(yù)訓練語言模型對自然語言約束進行處理,幫助智能體進行理解,并且完成代價函數(shù)預(yù)測,實現(xiàn)了在無需真實代價函數(shù)的前提下,讓智能體能夠?qū)W會遵守自由形式的復(fù)雜人類自然語言給出的約束條件。我們提出的算法在性能上可以達到與使用真實代價函數(shù)的方法相近的性能。并且在代價函數(shù)預(yù)測上,相比直接提示GPT-4來進行預(yù)測,我們所提出方法的預(yù)測結(jié)果的F1-score實現(xiàn)了23.9%的提升。
所提出方法對自然語言約束進行處理,使得處理后的約束可用于預(yù)測代價函數(shù)和約束智能體的策略
論文鏈接:https://arxiv.org/abs/2401.07553
?
7. PDiT:用于深度強化學習的感知與決策交錯Transformer
PDiT: Interleaving Perception and Decision-making Transformers for Deep Reinforcement Learning
論文作者:毛航宇,趙瑞,黎子玥,徐志偉,陳皓,陳逸群,張斌,肖臻,張俊格,尹江津
設(shè)計更好的深度網(wǎng)絡(luò)和更優(yōu)的強化學習(RL)算法對深度強化學習都非常重要。本工作研究的是前者。具體來說,提出了感知與決策交錯Transformer(PDiT)網(wǎng)絡(luò),該網(wǎng)絡(luò)以非常自然的方式串聯(lián)了兩個Transformer:感知Transformer專注于通過處理觀測的局部信息來進行環(huán)境感知,而決策Transformer則關(guān)注于決策制定,它依據(jù)期望回報的歷史、感知器的輸出和行動來進行條件處理。這樣的網(wǎng)絡(luò)設(shè)計通常適用于許多深度RL設(shè)置,例如,在具有圖像觀測、本體感知觀測或混合圖像-語言觀測的環(huán)境下的在線和離線RL算法。廣泛的實驗表明,PDiT不僅能在不同設(shè)置下比強基準實現(xiàn)更優(yōu)的性能,還能提取可解釋的特征表示。
?所提出的完整PDiT架構(gòu),堆疊了L個PDiT塊(即灰色矩形)。在每個PDiT塊中,有一個感知塊和一個決策塊,它們與Vanilla-PDiT的相應(yīng)塊完全相同。需要注意的是,同一層的感知塊在不同時間步之間共享模型參數(shù)。
論文鏈接:https://arxiv.org/abs/2312.15863
代碼鏈接:https://github.com/maohangyu/PDiT
?
8. 從顯式通信到默契合作:一種新的合作多智能體強化學習范式
From Explicit Communication to Tacit Cooperation: A Novel Paradigm for Cooperative MARL
論文作者:李大鵬、徐志偉、張斌、周光翀、張澤仁、范國梁
集中式訓練-分散式執(zhí)行作為一種被廣泛使用的學習范式,近年來在復(fù)雜合作任務(wù)中取得了顯著成功。然而,該范式的有效性在部分可觀察性問題中會存在一定的限制。盡管通信可以緩解這一挑戰(zhàn),但同時引入的通信成本也降低了算法的實用性。本文從人類團隊合作學習中汲取靈感,提出了一種新的學習范式并稱為TACO,TACO促進了算法從完全的顯式通信到無通信的默契合作的轉(zhuǎn)變。在初始訓練階段,TACO通過在智能體間進行顯式通信來促進合作,同時以自監(jiān)督的方式使用每個智能體的局部軌跡來對通信信息進行重建。在整個訓練過程中,TACO不斷減少顯式通信信息的比值,從而逐漸轉(zhuǎn)移到無溝通的完全分散式執(zhí)行。在多個不同場景下的實驗結(jié)果表明,TACO在不使用通信的表現(xiàn)可以接近甚至超過經(jīng)典值分解方法和基于通信的方法。
?
圖1. 人類團隊合作過程中的演變過程
圖2. TACO算法的整體框架
?
9.?ELA:用于零和博弈離線學習的受剝削等級增強方法
ELA: Exploited Level Augmentation for Offline Learning in Zero-Sum Games
論文作者:雷世騏、李康勛、李林靜、樸振奎、李家琛
離線學習算法通常都會受到低質(zhì)量演示者的負面影響,而在博弈場景中,還需要對各個軌跡所對應(yīng)策略的優(yōu)劣做出估計,并剔除其中較差策略產(chǎn)生的軌跡。本文設(shè)計了一種部分條件可訓練變分循環(huán)神經(jīng)網(wǎng)絡(luò)(P-VRNN),采用無監(jiān)督的方式來學習軌跡所對應(yīng)策略的表示,通過結(jié)合已有軌跡可預(yù)測下一步動作。同時,本文定義了軌跡的受剝削等級(Exploited Level,EL),用以近似經(jīng)典的可利用度。根據(jù)軌跡對應(yīng)的策略表示,并利用其最終收益可以對EL做出估計。本文將EL作為軌跡篩選器,用以增強現(xiàn)有的離線學習算法。在Pong和有限注德州撲克中的測試表明,BC、BCQ和CQL三種代表性離線學習算法在通過ELA增強后,均可以擊敗原有算法生成的策略。
圖1. ELA算法整體結(jié)構(gòu)
圖2.在Pong游戲中軌跡對應(yīng)的策略表示及估計出的受剝削等級
論文鏈接:https://arxiv.org/pdf/2402.18617v1
?
二、游戲競賽
1.非完全信息棋牌游戲競賽
AAMAS 2024 Imperfect-information Card Games Competition
競賽設(shè)計者:張海峰,宋研, 閆雪,邵坤
為促進不完美信息游戲中AI技術(shù)的發(fā)展,自動化所團隊舉辦第二屆不完美信息卡牌游戲競賽。此次競賽將涵蓋多智能體領(lǐng)域的各種挑戰(zhàn),探索諸如對手建模和AI智能體泛化能力等領(lǐng)域。參與者通過及第平臺參與競賽,平臺將對提交AI智能體的進行在線評估,為舉辦大規(guī)模在線比賽做準備。
?
AAMAS 2024 非完全信息棋牌游戲競賽共有三個賽道,如圖所示分別為四人德州撲克(左)、橋牌(中)以及麻將(右)。
【競賽網(wǎng)頁】
四人無限注德州撲克賽道:
http://www.jidiai.cn/compete_detail?compete=48
橋牌賽道:
http://www.jidiai.cn/compete_detail?compete=49
麻將賽道:
http://www.jidiai.cn/compete_detail?compete=50
?
2.計算經(jīng)濟學競賽
AAMAS 2024 Computational Economics Competition
競賽設(shè)計者:張海峰,米祈睿,宋研
為鼓勵人工智能在解決復(fù)雜經(jīng)濟問題方面的發(fā)展,自動化所團隊舉辦第二屆計算經(jīng)濟學競賽。該競賽將包括兩個賽道:政府方面的最優(yōu)稅收解決方案和家庭方面的最優(yōu)儲蓄和勞動策略。競賽情景具有高度多主體屬性和學術(shù)研究價值,與 AAMAS 2024 的目標受眾和競賽要求高度契合。參與者將通過及第平臺參與競賽,該平臺配備了大規(guī)模在線事件所需的設(shè)施,并提供 AI 智能體的實時評估。
?
圖1. TaxAI仿真器的經(jīng)濟活動
圖2. 各賽道參賽者統(tǒng)計
【競賽網(wǎng)頁】http://www.jidiai.cn/ccf_2023/En.html