首頁(yè)>要聞>悅讀 悅讀
為什么說(shuō)AlphaGo的勝利是件驚天動(dòng)地的大事?
“國(guó)際象棋和西洋棋與圍棋不同,它們不需要選手對(duì)棋局做復(fù)雜的形勢(shì)評(píng)估,”喬納森·謝弗(Jonathan Schaeffer)說(shuō)道,他是加拿大阿爾伯塔大學(xué)的計(jì)算機(jī)科學(xué)家,此前他的Chinook程序曾戰(zhàn)勝過(guò)頂級(jí)的西洋棋選手?!霸趪?guó)際象棋和西洋棋中,只需簡(jiǎn)單的啟發(fā),你就知道下一步該怎么走,衡量各個(gè)棋子的價(jià)值是選手最重要的任務(wù)——如果在國(guó)際象棋中多一個(gè)車的棋子,那你已經(jīng)基本勝券在握了。但這些方式在圍棋中都行不通,從人類的角度來(lái)看,圍棋的棋路過(guò)于復(fù)雜,電腦很難學(xué)會(huì)。不過(guò)AlphaGo做到了,它擁有世界上首個(gè)有效的評(píng)估函數(shù)系統(tǒng)。
那么DeepMind是如何做到的呢?其實(shí)解決這個(gè)問(wèn)題的關(guān)鍵是深度學(xué)習(xí)和類神經(jīng)網(wǎng)絡(luò)技術(shù),有了它們,研究人員就能教AlphaGo下棋。就像Google Photos能幫你從無(wú)數(shù)圖片中找出貓咪一樣,其背后是該應(yīng)用對(duì)超大量級(jí)的貓咪圖片做分析后的結(jié)果,這些分析處理甚至細(xì)化到了像素級(jí)別。而AlphaGo能有如此成績(jī),則得益于對(duì)數(shù)百萬(wàn)項(xiàng)圍棋數(shù)據(jù)的學(xué)習(xí),包括各種棋路和棋手的比賽。
眼下,AlphaGo還在不斷學(xué)習(xí),其能力也在不斷增強(qiáng)。起初,它還是靠學(xué)習(xí)套路(策略網(wǎng)絡(luò))來(lái)預(yù)測(cè)對(duì)手的落子方式,不過(guò)隨著價(jià)值網(wǎng)絡(luò)訓(xùn)練的深入,AlphaGo已經(jīng)有了那么點(diǎn)“直覺”,它可以分析出比賽的態(tài)勢(shì)了。在棋局中,AlphaGo已經(jīng)可以通過(guò)快速對(duì)各種可能性做分析,提前考慮后面幾步的落子和排兵布陣了。其實(shí)AlphaGo擁有的各項(xiàng)技術(shù)都是相互輔助的,類神經(jīng)網(wǎng)絡(luò)可以降低電腦的負(fù)載,提高工作效率;套路學(xué)習(xí)則可以減小其搜索范圍,而價(jià)值網(wǎng)絡(luò)則可讓它從每次的比賽中總結(jié)出自己的經(jīng)驗(yàn)。
AlphaGo擁有自己的“思考”能力
這一增強(qiáng)版的學(xué)習(xí)系統(tǒng)讓AlphaGo變得更像人類,而不是靠驚人計(jì)算能力戰(zhàn)勝國(guó)際象棋大師的IBM深藍(lán)電腦,畢竟圍棋和國(guó)際象棋在復(fù)雜程度上不屬于一個(gè)量級(jí),用深藍(lán)電腦的方法是無(wú)法在圍棋上戰(zhàn)勝人類的。在五場(chǎng)比賽的間歇,DeepMind都不會(huì)對(duì)AlphaGo做調(diào)整,因此電腦只能靠自己來(lái)學(xué)習(xí),但每天一場(chǎng)比賽的量確實(shí)有些少。此外,DeepMind公司創(chuàng)始人杰米斯?哈薩比斯(Demis Hassabis)稱AlphaGo的計(jì)算能力在去年十月的比賽后一直都沒有得到增強(qiáng),因此現(xiàn)在它的能力已經(jīng)達(dá)到現(xiàn)有硬件條件下的頂峰。
編輯:薛曉鈺
關(guān)鍵詞:AlphaGo 李世石 尾氣