AlphaGo之父詳解“圍棋上帝”煉成記

2017-03-19 07:55:16

來源：網(wǎng)絡(luò)

點(diǎn)擊：906

A⁺ A^-

所屬頻道：新聞中心

關(guān)鍵詞：機(jī)器人,人工智能

AlphaGo之父Demis Hassabis

歷史悠久的圍棋已經(jīng)流傳了近3000年，但人類一直低估了一點(diǎn)：以第五條線為代表的棋局中部區(qū)域。

這是AlphaGo之父、DeepMind創(chuàng)始人Demis Hassabis向外界分享AlphaGo背后故事時透露的重要信息。

自從去年3月首爾那場載入史冊的比賽以來，AlphaGo超越人類棋手固有思維和套路的招法，對圍棋界的沖擊史無前例。用Demis Hassabis 的話說，“就像人們利用哈勃望遠(yuǎn)鏡發(fā)現(xiàn)新的宇宙空間一樣。AlphaGo就是圍棋界的‘哈勃天文望遠(yuǎn)鏡’。”

5月24日，DeepMind創(chuàng)始人Demis Hassabis以及AlphaGo團(tuán)隊負(fù)責(zé)人David Silver一起對外詳解了AlphaGo背后的研發(fā)故事，以及AlphaGo究竟意味著什么?

“AlphaGo已經(jīng)展示出了創(chuàng)造力，在某一個領(lǐng)域它甚至已經(jīng)可以模仿人類直覺了?！?Demis Hassabis說，在未來能看到人機(jī)合作的巨大力量，人類智慧將通過人工智能進(jìn)一步放大?！皬?qiáng)人工智能是人類研究和探尋宇宙的終極工具?！?/p>

圍棋難在哪兒?

歷史上，電腦最早掌握的第一款經(jīng)典游戲是井字游戲，這是1952年一位博士在讀生的研究項目;隨后是1994年電腦程序Chinook成功挑戰(zhàn)西洋跳棋游戲;3年后，IBM深藍(lán)超級計算機(jī)在國際象棋比賽中戰(zhàn)勝世界冠軍加里·卡斯帕羅夫。

相比之下，圍棋看似規(guī)則簡單，復(fù)雜性卻是難以想象的。它一共有10的170次方種可能性，這個數(shù)字比整個宇宙中的原子數(shù)10的80次方都多，沒有辦法窮舉出圍棋所有可能的結(jié)果。

可以對比的是，國際象棋有著巨大的數(shù)據(jù)庫，如果棋盤上少于9個棋子的時候，通過數(shù)學(xué)算法就可以計算出誰勝誰敗;如果棋盤上少于九個棋子的時候，下象棋時人類是沒有辦法獲勝的。可以說，國際象棋的算法已經(jīng)近乎極致。

在Demis Hassabis看來，更困難的是圍棋不像象棋等游戲靠計算，而是靠直覺。“圍棋中沒有等級概念，所有棋子都一樣，圍棋是筑防游戲，因此需要盤算未來。你在下棋的過程中，是棋盤在心中，必須要預(yù)測未來。小小一個棋子可撼動全局，牽一發(fā)動全身。圍棋'妙手'如受天啟?！惫_比斯如此解釋道。

第一位與AlphaGo對陣的人類職業(yè)棋手樊麾對記者感慨，“曾經(jīng)以為計算機(jī)打敗職業(yè)棋手，一輩子都不會看到，沒想到這么快就實(shí)現(xiàn)了。”

對 AlphaGo 團(tuán)隊來說，是時候?qū)ふ乙环N更聰明的方法來解開圍棋謎題了。

如何訓(xùn)練AlphaGo?

AlphaGo系統(tǒng)的關(guān)鍵是，將圍棋巨大無比的搜索空間壓縮到可控的范圍之內(nèi)。

為了應(yīng)對圍棋的巨大復(fù)雜性，AlphaGo 采用了一種新穎的機(jī)器學(xué)習(xí)技術(shù)，結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢。

具體而言，首先是通過訓(xùn)練形成一個策略網(wǎng)絡(luò)(policy network)，將棋盤上的局勢作為輸入信息，并對所有可行的落子位置生成一個概率分布。然后，訓(xùn)練出一個價值網(wǎng)絡(luò)(value network)對自我對弈進(jìn)行預(yù)測，以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標(biāo)準(zhǔn)，預(yù)測所有可行落子位置的結(jié)果。

這兩個網(wǎng)絡(luò)自身都十分強(qiáng)大，而 AlphaGo將這兩種網(wǎng)絡(luò)整合進(jìn)基于概率的蒙特卡羅樹搜索(MCTS)中，實(shí)現(xiàn)了它真正的優(yōu)勢。最后，新版的AlphaGo 產(chǎn)生大量自我對弈棋局，為下一代版本提供了訓(xùn)練數(shù)據(jù)，此過程循環(huán)往復(fù)。

AlphaGo之父詳解“圍棋上帝”煉成記

AlphaGo 如何決定落子?

在獲取棋局信息后，AlphaGo 會根據(jù)策略網(wǎng)絡(luò)探索哪個位置同時具備高潛在價值和高可能性，進(jìn)而決定最佳落子位置。

在分配的搜索時間結(jié)束時，模擬過程中被系統(tǒng)最頻繁考察的位置將成為 AlphaGo 的最終選擇。在經(jīng)過先期的全盤探索和過程中對最佳落子的不斷揣摩后，AlphaGo的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。

AlphaGo之父詳解“圍棋上帝”煉成記

Demis Hassabis表示，阿爾法狗不只是模仿其他人類選手的下法，而且在不斷創(chuàng)新。

例如，在與李世石第二局里對弈第37步，這一步是Demis 在整個比賽中感到最震驚的一步。

AlphaGo之父詳解“圍棋上帝”煉成記

Demis解釋道：在圍棋中有兩條至關(guān)重要的分界線，從右數(shù)第三根線。如果在第三根線上移動棋子，意味著你將占領(lǐng)該線右邊的領(lǐng)域。而如果是在第四根線上落子，意味著你計劃向棋盤中部進(jìn)軍，潛在的，未來你會占棋盤上其他部分的領(lǐng)域，可能和你在第三根線上得到的領(lǐng)域相當(dāng)。

因此，在過去的3000多年里，人們普遍認(rèn)為在第三根線上落子和第四根線上落子有著相同的重要性。但在第37步中，阿爾法狗卻把棋子落在了第五條線，進(jìn)軍棋局的中部區(qū)域。“這可能意味著，在過去幾千年里，人們低估了棋局中部區(qū)域的重要性。”

值得一提的是，和去年戰(zhàn)勝李世石的AlphaGo相比，DeepMind 科學(xué)家David Silver稱現(xiàn)在AlphaGo要更強(qiáng)三子，他介紹道：“與李世石對戰(zhàn)的AlphaGo 在云上有50個TPUs在運(yùn)作，搜索50個棋步為10000個位置/秒，而昨天打敗柯潔的AlphaGo Master則在單個TPU上進(jìn)行游戲，AlphaGo成為自己的老師，它從自己的搜索里學(xué)習(xí)，有著更強(qiáng)大的策略和價值網(wǎng)絡(luò)?！?/p>

柯潔也在今日的微博中，對于AlphaGo團(tuán)隊給出的檢測報告感嘆：自己是在跟怎樣可怕的對手下棋。

“這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋，對手連續(xù)讓你下三步...又像武林高手對決讓你先捅三刀一樣...”柯潔說。

除了下圍棋，AlphaGo還能做什么?

圍棋之外，Demis Hassabis告訴記者，AlphaGo 的高效算法是一種通用型的算法，也可以推廣到其他算法，把人工智能運(yùn)用到各種各樣的領(lǐng)域，如將AI用到材料設(shè)計、新藥研制上，還有現(xiàn)實(shí)生活中的應(yīng)用，如醫(yī)療、智能手機(jī)、教育等。

他曾舉例，通過與人類專家的合作，可以找到各種各樣的創(chuàng)新方式，包括從“其中一種變體應(yīng)用于醫(yī)療行業(yè)，我們正在著力解決蛋白質(zhì)折疊的問題，用來治療各種疾病?！?/p>

“人機(jī)合作可以達(dá)到1+1大于2的效果，人類的智慧將被人工智能放大。人工智能和AlphaGo都是工具，就像哈勃望遠(yuǎn)鏡一樣，可以推進(jìn)人類文明的進(jìn)步。”他說。

不過他也對第一財經(jīng)坦言，圍繞AlphaGo，背后的技術(shù)包括圖像處理、大數(shù)據(jù)分析等，這些技術(shù)目前在其它領(lǐng)域的使用還在早期探索階段，只在AlphaGo研究的中間環(huán)節(jié)某些領(lǐng)域應(yīng)用，但是在未來肯定會在多個領(lǐng)域推廣相關(guān)的技術(shù)。

Demis Hassabis還表示，目前信息過載和系統(tǒng)冗雜是人類面臨的巨大挑戰(zhàn)，希望利用AI找到元解決方案?！拔覀兊哪繕?biāo)是實(shí)現(xiàn)‘人工智能科學(xué)家’或‘人工智能輔助科學(xué)‘。”

“人工智能和所有強(qiáng)大的新技術(shù)一樣，在倫理和責(zé)任的約束中造福人類?！?Demis Hassabis說。這意味著，人工智能應(yīng)該是應(yīng)用于科學(xué)、制藥等領(lǐng)域，而不是應(yīng)用于研發(fā)武器、戰(zhàn)爭上；此外，人工智能不能只為少數(shù)幾家公司使用，而是為全人類所共享。

(審核編輯: 林靜)

聲明：除特別說明之外，新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán)，請聯(lián)系我們刪除。

分享

国产视频一区在线,日韩三级网,日韩欧美在线观看一区二区,午夜欧美福利视频,国产人妖视频一区二区,久久亚洲精品中文字幕,国产成人午夜高潮毛片

AlphaGo之父詳解“圍棋上帝”煉成記

點(diǎn)擊排行

專題