通用AlphaGo誕生?MuZero在多種棋類游戲中超越人類
谷雪子
DeepMind的一項(xiàng)研究提出了MuZero算法,該算法在不具備任何底層動(dòng)態(tài)知識(shí)的情況下,通過結(jié)合基于樹的搜索和學(xué)得模型,在雅達(dá)利2600游戲中達(dá)到了SOTA表現(xiàn),在國(guó)際象棋、日本將棋和圍棋的精確規(guī)劃任務(wù)中可以匹敵AlphaZero,甚至超過了提前得知規(guī)則的圍棋版AlphaZero。
MuZero 算法在國(guó)際象棋、日本將棋、圍棋和雅達(dá)利(Atari)游戲訓(xùn)練中的評(píng)估結(jié)果。橫坐標(biāo)表示訓(xùn)練步驟數(shù)量,縱坐標(biāo)表示 Elo評(píng)分。黃色線代表 AlphaZero(在雅達(dá)利游戲中代表人類表現(xiàn)),藍(lán)色線代表 MuZero。
基于前向搜索的規(guī)劃算法已經(jīng)在 AI 領(lǐng)域取得了很大的成功。在圍棋、國(guó)際象棋、西洋跳棋、撲克等游戲中,人類世界冠軍一次次被算法打敗。此外,規(guī)劃算法也已經(jīng)在物流、化學(xué)合成等諸多現(xiàn)實(shí)世界領(lǐng)域中產(chǎn)生影響。然而,這些規(guī)劃算法都依賴于環(huán)境的動(dòng)態(tài)變化,如游戲規(guī)則或精確的模擬器,導(dǎo)致它們?cè)跈C(jī)器人學(xué)、工業(yè)控制、智能助理等領(lǐng)域中的應(yīng)用受到限制。
基于模型的強(qiáng)化學(xué)習(xí)旨在通過以下步驟解決這一問題:首先學(xué)習(xí)一個(gè)環(huán)境動(dòng)態(tài)模型,然后根據(jù)所學(xué)模型進(jìn)行規(guī)劃。一般來說,這些模型要么著眼于重建真實(shí)的環(huán)境狀態(tài),要么著眼于完整觀察結(jié)果的序列。然而,之前的研究在視覺上豐富的領(lǐng)域還遠(yuǎn)遠(yuǎn)沒有達(dá)到 SOTA 水準(zhǔn),如雅達(dá)利 2600 游戲。
最受歡迎的方法是基于無模型強(qiáng)化學(xué)習(xí)的方法,即直接從智能體與環(huán)境的交互中估計(jì)優(yōu)化策略和/或價(jià)值函數(shù)。但在那些需要精確和復(fù)雜前向搜索的領(lǐng)域(如圍棋、國(guó)際象棋),這種無模型的算法要遠(yuǎn)遠(yuǎn)落后于 SOTA。
研究者在57個(gè)不同的雅達(dá)利游戲中評(píng)估了MuZero,發(fā)現(xiàn)該模型在雅達(dá)利2600游戲中達(dá)到了SOTA表現(xiàn)。此外,他們還在不給出游戲規(guī)則的情況下,在國(guó)際象棋、日本將棋和圍棋中對(duì)MuZero模型進(jìn)行了評(píng)估,發(fā)現(xiàn)該模型可以匹敵AlphaZero超越人類的表現(xiàn)。而且,在該實(shí)驗(yàn)中,其前輩AlphaZero提前獲知了規(guī)則。
MuZero 算法概覽
MuZero 基于 AlphaZero 強(qiáng)大的搜索和基于搜索的策略迭代算法,但又將一個(gè)學(xué)習(xí)好的模型整合到了訓(xùn)練步驟中。MuZero 還將 AlphaZero 擴(kuò)展到了一個(gè)更加廣泛的環(huán)境集合,包含單個(gè)智能體域和中間時(shí)間步上的非零獎(jiǎng)勵(lì)。
該算法的主要思路是預(yù)測(cè)那些與規(guī)劃直接相關(guān)的未來行為(如下圖 1 所示)。模型將接收到的觀察結(jié)果(如圍棋棋盤圖像或雅達(dá)利游戲截圖)作為輸入,然后將其轉(zhuǎn)換為一個(gè)隱藏狀態(tài)。接下來,通過一個(gè)循環(huán)過程來迭代更新該隱藏狀態(tài),該循環(huán)過程接收前一個(gè)隱藏狀態(tài)和假設(shè)的下一步操作。
在每一個(gè)步驟上,模型會(huì)預(yù)測(cè)策略(如玩的動(dòng)作)、價(jià)值函數(shù)(如預(yù)測(cè)的贏家)以及即時(shí)獎(jiǎng)勵(lì)。對(duì)模型進(jìn)行端到端訓(xùn)練的唯一目標(biāo)是準(zhǔn)確估計(jì)這三個(gè)重要的量,以匹配改進(jìn)的策略估計(jì)和通過搜索及觀察到的獎(jiǎng)勵(lì)生成的值。
對(duì)于隱藏的狀態(tài),沒有直接的約束和要求來捕獲重建原始觀察結(jié)果所需的信息,大大減少了模型維護(hù)和預(yù)測(cè)的信息量;也沒有要求隱藏狀態(tài)匹配環(huán)境中未知、真實(shí)的狀態(tài);更沒有針對(duì)狀態(tài)語(yǔ)義的其他約束。
相反,隱藏狀態(tài)能夠地以任何與預(yù)測(cè)當(dāng)前和未來值和策略相關(guān)的方式來表示狀態(tài)。直觀地說,智能體可以在內(nèi)部創(chuàng)建規(guī)則和動(dòng)態(tài),以實(shí)現(xiàn)最精確的規(guī)劃。
圖 1:用一個(gè)訓(xùn)練好的模型進(jìn)行規(guī)劃、行動(dòng)和訓(xùn)練。(A)MuZero 利用其模型進(jìn)行規(guī)劃的方式;(B)MuZero 在環(huán)境中發(fā)生作用的方式;(C)MuZero 訓(xùn)練其模型的方式。
MuZero 算法詳解
研究者對(duì) MuZero 算法進(jìn)行了更詳細(xì)的解讀。在每個(gè)時(shí)間步 t 上、以過往觀察結(jié)果 O_1, …, O_t 和未來行為 a_t+1, …, a_t+k 為條件、通過一個(gè)具有參數(shù)θ的模型µ_θ,為每個(gè) k=1…K 步進(jìn)行預(yù)測(cè)。該模型預(yù)測(cè)三種未來數(shù)量:策略
、價(jià)值函數(shù)
和即時(shí)獎(jiǎng)勵(lì)
,其中 u. 表示觀察到的正確獎(jiǎng)勵(lì),π表示用來選擇實(shí)時(shí)行動(dòng)的策略,γ表示環(huán)境的貼現(xiàn)函數(shù)(discount function)。
在每個(gè)時(shí)間步 t 上,MuZero 模型由表征函數(shù)、動(dòng)態(tài)函數(shù)和預(yù)測(cè)函數(shù)聯(lián)合表征。在本文中,研究者對(duì)動(dòng)態(tài)函數(shù)進(jìn)行了確切的表征。策略和價(jià)值函數(shù)則通過預(yù)測(cè)函數(shù)
并根據(jù)內(nèi)部狀態(tài) s^k 來計(jì)算,這與 AlphaZero 的聯(lián)合策略和價(jià)值網(wǎng)絡(luò)相似。
給定這樣一個(gè)模型,則有可能在基于過往觀察結(jié)果 O_1, …, O_t 的情況下查找基于假設(shè)的未來軌跡 a^1, …, a^k。例如,一個(gè)簡(jiǎn)單的搜索可以輕松地選擇最大化價(jià)值函數(shù)的 k 步動(dòng)作序列。更普遍地說,我們或許可以將任何 MDP(馬爾科夫決策過程)規(guī)劃算法應(yīng)用于由動(dòng)態(tài)函數(shù)推導(dǎo)出的內(nèi)部獎(jiǎng)勵(lì)和狀態(tài)空間。
對(duì)于每個(gè)假設(shè)的時(shí)間步 k,模型的所有參數(shù)接受聯(lián)合訓(xùn)練,從而在 k 個(gè)實(shí)際的時(shí)間步后,對(duì)策略、價(jià)值和獎(jiǎng)勵(lì)與它們各自對(duì)應(yīng)的目標(biāo)值進(jìn)行精確的匹配。與 AlphaZero 相似,提升后的策略目標(biāo)通過蒙特卡洛樹(MCTS)搜索生成。第一個(gè)目標(biāo)是最小化預(yù)測(cè)策略 p^k_t 和搜索策略π_t+k 之間的誤差;第二個(gè)目標(biāo)是最小化預(yù)測(cè)值 v^k_t 和價(jià)值目標(biāo) z_t+k 之間的誤差;第三個(gè)目標(biāo)是最小化預(yù)測(cè)獎(jiǎng)勵(lì) r^k_t 和觀察到的獎(jiǎng)勵(lì) u_t+k 之間的誤差。最后添加 L2 正則化項(xiàng),得出以下總損失:
實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,研究者將 MuZero 算法應(yīng)用于圍棋、國(guó)際象棋和日本將棋等經(jīng)典棋盤游戲中,作為挑戰(zhàn)規(guī)劃問題的基準(zhǔn);同時(shí)又應(yīng)用于雅達(dá)利游戲環(huán)境中的 57 個(gè)游戲,作為視覺復(fù)雜強(qiáng)化學(xué)習(xí)領(lǐng)域的基準(zhǔn)。
下圖 2 展示了 MuZero 算法在每個(gè)游戲訓(xùn)練中的性能。在圍棋游戲中,盡管搜索樹中每個(gè)節(jié)點(diǎn)的計(jì)算量小于 AlphaZero,但 MuZero 的性能依然略微超過 AlphaZero。這表明 MuZero 可能在搜索樹中緩存自身計(jì)算,并利用動(dòng)態(tài)模型的每個(gè)附加應(yīng)用來對(duì)位置產(chǎn)生更深的理解。
圖 2:MuZero 算法分別在國(guó)際象棋、日本將棋、圍棋和雅達(dá)利游戲訓(xùn)練中的評(píng)估結(jié)果。在國(guó)際象棋、日本將棋和圍棋游戲中,橫坐標(biāo)表示訓(xùn)練步驟數(shù)量,縱坐標(biāo)表示 Elo 評(píng)分。
表 1:雅達(dá)利游戲中 MuZero 與先前智能體的對(duì)比。研究者分別展示了大規(guī)模(表上部分)和小規(guī)模(表下部分)數(shù)據(jù)設(shè)置下 MuZero 與其他智能體的對(duì)比結(jié)果,表明 MuZero 在平均分、得分中位數(shù)、Env. Frames、訓(xùn)練時(shí)間和訓(xùn)練步驟五項(xiàng)評(píng)估指標(biāo)(紅框)取得了新的 SOTA 結(jié)果。
為了了解 MuZero 中模型的作用,研究者還重點(diǎn)在圍棋和吃豆人雅達(dá)利游戲中進(jìn)行了以下幾項(xiàng)實(shí)驗(yàn)。他們首先在圍棋的典型規(guī)劃問題上測(cè)試了規(guī)劃的可擴(kuò)展性(下圖 3A)。此外,他們還研究了所有雅達(dá)利游戲中規(guī)劃的可擴(kuò)展性(下圖 3B)。接著,他們將自己基于模型的學(xué)習(xí)算法與其他相似的無模型學(xué)習(xí)算法進(jìn)行了比較(下圖 3C)。
圖 3:MuZero 在圍棋、57 個(gè)雅達(dá)利游戲、吃豆人游戲上的評(píng)估結(jié)果。
(原文來自機(jī)器之心編輯部,論文鏈接:網(wǎng)頁(yè)鏈接)