前世今生 帶你了解AlphaGo的發(fā)展歷程
飛鸞桑
阿爾法圍棋(AlphaGo)是一款圍棋人工智能程序,由位于英國倫敦的谷歌(Google)旗下DeepMind公司的戴維·西爾弗、艾佳·黃和戴密斯·哈薩比斯與他們的團(tuán)隊(duì)開發(fā),這個程序利用“價值網(wǎng)絡(luò)”去計算局面,用“策略網(wǎng)絡(luò)”去選擇下子。
AlphaGo的主要設(shè)計者:
大衛(wèi)·席爾瓦 (David Silver),劍橋大學(xué)計算機(jī)科學(xué)學(xué)士,碩士,加拿大阿爾伯塔大學(xué)計算機(jī)科學(xué)博士?,F(xiàn)為倫敦大學(xué)學(xué)院講師及Google DeepMind研究員。
黃士杰(Aja Huang),臺灣交通大學(xué)計算機(jī)科學(xué)學(xué)士,臺灣師范大學(xué)計算機(jī)科學(xué)碩士和博士,加拿大阿爾伯塔大學(xué)計算機(jī)科學(xué)博士后?,F(xiàn)為Google DeepMind研究員。
阿爾法圍棋(AlphaGo)是通過兩個不同神經(jīng)網(wǎng)絡(luò)“大腦”合作來改進(jìn)下棋。這些大腦是多層神經(jīng)網(wǎng)絡(luò)跟那些Google圖片搜索引擎識別圖片在結(jié)構(gòu)上是相似的。它們從多層啟發(fā)式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網(wǎng)絡(luò)處理圖片一樣。經(jīng)過過濾,13 個完全連接的神經(jīng)網(wǎng)絡(luò)層產(chǎn)生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。
這些網(wǎng)絡(luò)通過反復(fù)訓(xùn)練來檢查結(jié)果,再去校對調(diào)整參數(shù),去讓下次執(zhí)行更好。這個處理器有大量的隨機(jī)性元素,所以人們是不可能精確知道網(wǎng)絡(luò)是如何“思考”的,但更多的訓(xùn)練后能讓它進(jìn)化到更好。
第一大腦:落子選擇器 (Move Picker)
阿爾法圍棋(AlphaGo)的第一個神經(jīng)網(wǎng)絡(luò)大腦是“監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)(Policy Network)” ,觀察棋盤布局企圖找到最佳的下一步。事實(shí)上,它預(yù)測每一個合法下一步的最佳概率,那么最前面猜測的就是那個概率最高的。這可以理解成“落子選擇器”。
第二大腦:棋局評估器 (Position Evaluator)
阿爾法圍棋(AlphaGo)的第二個大腦相對于落子選擇器是回答另一個問題。不是去猜測具體下一步,它預(yù)測每一個棋手贏棋的可能,在給定棋子位置情況下。這“局面評估器”就是“價值網(wǎng)絡(luò)(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對于閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”,AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那么AI就跳過閱讀在這一條線上的任何更多落子。
2015年10月阿爾法圍棋以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。2016年3月挑戰(zhàn)世界圍棋冠軍、職業(yè)九段選手李世石。根據(jù)日程安排,5盤棋將分別于3月9日、10日、12日、13日和15日舉行,即使一方率先取得3勝,也會下滿5盤。最后以4:1結(jié)束了這場“戰(zhàn)爭”。
2016年3月27日,AlphaGo確認(rèn)挑戰(zhàn)《星際爭霸2》。2016年12月29日晚起,一個注冊為“master”、標(biāo)注為韓國九段的“網(wǎng)絡(luò)棋手”接連“踢館”弈城網(wǎng)和野狐網(wǎng)。 2016年12月29日晚起到2017年1月4日晚,master對戰(zhàn)人類頂尖高手的戰(zhàn)績是60勝0負(fù)。最后一盤前,大師透露,“他”就是阿爾法圍棋(AlphaGo)。
2017年5月23日-27日柯潔與圍棋人工智能AlphaGo在“中國烏鎮(zhèn)·圍棋峰會”展開對弈。三局比賽,分別于5月23、25、27日進(jìn)行。
在未來,Alpha Go將和醫(yī)療、機(jī)器人等進(jìn)行結(jié)合,更好的服務(wù)人類。