2017-10-19 18:46:53
美國(guó)當(dāng)?shù)貢r(shí)間10月18日,谷歌人工智能DeepMind團(tuán)隊(duì)在《Nature》上發(fā)表論文,宣布新版的AlphaGo Zero計(jì)算機(jī)程序可以突破突破人類(lèi)知識(shí)的局限,迅速實(shí)現(xiàn)自我學(xué)習(xí)。新版阿爾法狗從零開(kāi)始自學(xué)圍棋,僅用3天時(shí)間,就以100比0的成績(jī)擊敗了舊版的AlphaGo,這是人類(lèi)人工智能史的重大突破。
每經(jīng)記者 蔡鼎 每經(jīng)實(shí)習(xí)編輯 郭鑫
人工智能程序AlphaGo在先后擊敗世界圍棋冠軍李世石和柯潔之后,宣布退出“棋壇”。
如今,谷歌的深度學(xué)習(xí)團(tuán)隊(duì)又宣布了一個(gè)重磅消息:新版AlphaGo可以徹底擺脫人類(lèi)的知識(shí)。當(dāng)?shù)貢r(shí)間10月18日,谷歌人工智能團(tuán)隊(duì)DeepMind團(tuán)隊(duì)在著名學(xué)術(shù)期刊《自然》上發(fā)表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒(méi)有人類(lèi)指導(dǎo)的情況下學(xué)習(xí),實(shí)現(xiàn)無(wú)師自通!
據(jù)《每日經(jīng)濟(jì)新聞》了解,新版本AlphaGo從零開(kāi)始自學(xué)圍棋,僅用3天時(shí)間,“阿爾法圍棋-零”就以100比0的成績(jī)打敗了此前戰(zhàn)勝李世石的舊版AlphaGo(舊版AlphaGo在擊敗李世石40天后,又戰(zhàn)勝了世界排名第一的柯潔)。
當(dāng)?shù)貢r(shí)間10月18日,谷歌人工智能團(tuán)隊(duì)DeepMind團(tuán)隊(duì)在著名學(xué)術(shù)期刊《自然》上發(fā)表論文表示,在輸入棋盤(pán)和棋子信息后,AlphaGo Zero通過(guò)與自己對(duì)弈490萬(wàn)次學(xué)會(huì)了如何下出最好的圍棋。
經(jīng)過(guò)3天的訓(xùn)練,AlphaGo Zero就以100:0的比分贏下了李世石版AlphaGo,并且只用了1臺(tái)機(jī)器和4個(gè)TPU(谷歌專(zhuān)為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的芯片)。比較而言,李世石版AlphaGo則用了48個(gè)TPU。AlphaGo Zero除了獨(dú)立地學(xué)會(huì)了人類(lèi)花費(fèi)數(shù)千年時(shí)間發(fā)現(xiàn)的圍棋規(guī)則外,還自行學(xué)會(huì)了非常有趣的圍棋策略,并且許多走法都“極具創(chuàng)造性”。
那么AlphaGo Zero是如何實(shí)現(xiàn)這種飛躍的?《每日經(jīng)濟(jì)新聞》記者注意到,AlphaGo Zero采用的是人工神經(jīng)網(wǎng)絡(luò)。這種人工智能技術(shù)可以計(jì)算出對(duì)手下一步走棋的可能性,并且估算出下棋選手贏的概率。根據(jù)計(jì)算,AlphaGo Zero每一步都會(huì)選擇最大概率贏的走法。整個(gè)訓(xùn)練過(guò)程中,不需要人類(lèi)參與,全程是AlphaGo Zero自我學(xué)習(xí),自我對(duì)弈。在訓(xùn)練過(guò)程中,AlphaGo Zero每下一步需要思考的時(shí)間是0.4秒。通過(guò)對(duì)圍棋游戲的模擬和訓(xùn)練,神經(jīng)網(wǎng)絡(luò)會(huì)變得越來(lái)越好。值得一提的是,AlphaGo Zero相比之前的版本,僅使用了單一的神經(jīng)網(wǎng)絡(luò)。
谷歌深度學(xué)習(xí)聯(lián)合創(chuàng)始人兼CEO德米斯·哈比斯(Demis Hassabis)表示,AlphaGo Zero這個(gè)項(xiàng)目之所以如此強(qiáng)大,是因?yàn)樗?ldquo;不再受限于人類(lèi)知識(shí)的局限”。哈比斯還相信,如果將這個(gè)項(xiàng)目應(yīng)用到治療像老年癡呆癥這樣重大的健康問(wèn)題上的話,那么在幾周內(nèi),就能找到治愈人類(lèi)需要花費(fèi)幾百年時(shí)間才能找到的療法。
“最終,我們希望利用這種算法突破,來(lái)幫助解決各種緊迫的現(xiàn)實(shí)問(wèn)題,”哈比斯表示。“如果類(lèi)似的技術(shù)可以應(yīng)用到其他結(jié)構(gòu)性問(wèn)題上,例如蛋白質(zhì)折疊、減少能源消耗或?qū)ふ腋锩孕虏牧希敲慈〉玫耐黄凭途哂型苿?dòng)人類(lèi)理解的潛力,并對(duì)我們的生活產(chǎn)生積極影響。”
其實(shí),谷歌的深度學(xué)習(xí)團(tuán)隊(duì)已經(jīng)開(kāi)始使用AlphaGo Zero來(lái)研究蛋白質(zhì)折疊,并承諾稱(chēng)將很快發(fā)表新的研究發(fā)現(xiàn)。錯(cuò)誤折疊的蛋白質(zhì)曾導(dǎo)致了包括老年癡呆癥、帕金森病和囊性纖維化等許多毀滅性的疾病。
《每日經(jīng)濟(jì)新聞》記者注意到,近年來(lái),越來(lái)越多的科技公司先后進(jìn)入健康領(lǐng)域。去年,微軟宣布計(jì)劃在10年內(nèi)攻克癌癥。谷歌的秘密部門(mén)Calico也在調(diào)查延長(zhǎng)人類(lèi)壽命甚至停止衰老的方法。
《電訊報(bào)》指出,最新版的AlphaGo Zero最重大的突破在于實(shí)現(xiàn)了“白板理論”。在這個(gè)白板式的學(xué)習(xí)過(guò)程中,程序成了自己的老師,通過(guò)與自己下圍棋(或其他游戲)取得不斷的提高,這個(gè)過(guò)程中不需要人類(lèi)的知識(shí)、數(shù)據(jù)或任何其他形式的干預(yù)。
AlphaGo的首席研究員戴夫·西爾弗(Dave Silver)博士指出:“如果一個(gè)程序能實(shí)現(xiàn)‘白板學(xué)習(xí)’,那么這個(gè)程序就有一個(gè)代理,這個(gè)所謂代理也可以被移植到任何其他的領(lǐng)域。意思就是說(shuō),Alphago Zero可以從圍棋中‘解放’出來(lái),并致力于那種可以應(yīng)用到其他任何地方的算法。”
“對(duì)于我們來(lái)說(shuō),AlphaGo不是要去在各種領(lǐng)域中打敗人類(lèi),而是要去發(fā)現(xiàn)科學(xué)的意義,以及讓一個(gè)能無(wú)師自通的程序去進(jìn)行自我學(xué)習(xí)。”西爾弗博士補(bǔ)充道。“在很短的時(shí)間內(nèi),Alphago Zero已經(jīng)理解了人類(lèi)經(jīng)過(guò)數(shù)千年的積累、分析而總結(jié)的圍棋理論。除此之外,Alphago Zero還深入分析圍棋的走法,并自行算出了更多具有創(chuàng)造性的走法。”
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP