導(dǎo)讀:經(jīng)過(guò)五天的鏖戰(zhàn),德州撲克人工智能系統(tǒng)Libratus毫無(wú)懸念獲得最終勝利。在這場(chǎng)德州撲克人機(jī)大戰(zhàn)中,中國(guó)龍之隊(duì)的六位牌手共與冷撲大師打了36000手牌,共輸792327分,AI完勝人類。
4月10日,“冷撲大師V.S.中國(guó)龍之隊(duì)——人機(jī)撲克巔峰表演賽”落下帷幕。經(jīng)過(guò)五天賽事,冷撲大師最終以792,327總記分牌的戰(zhàn)績(jī)獲勝,200萬(wàn)獎(jiǎng)勵(lì)歸屬冷撲大師。
五天下來(lái)冷撲大師累計(jì)贏得792,327記分牌數(shù),平均22.0每百手損失大盲
此次人機(jī)撲克大戰(zhàn)巔峰表演賽的發(fā)起人、創(chuàng)新工場(chǎng)CEO、人工智能工程院院長(zhǎng)李開復(fù)表示:“透過(guò)冷撲大師和龍之隊(duì)表演賽的對(duì)戰(zhàn)結(jié)果,人機(jī)對(duì)戰(zhàn)基本沒(méi)有懸念了,據(jù)聞AlphaGo近期即將來(lái)華和柯潔對(duì)戰(zhàn),其實(shí)已經(jīng)不再具有科學(xué)意義了?!?/p>
圍棋和德州撲克代表了AI處理人機(jī)對(duì)弈的兩種信息模式——完美信息和不完美信息。在博弈論中,完美信息指后參與者可觀察到前參與者的行為。不完美信息指參與者做選擇的時(shí)候不知道其他參與者的選擇。
冷撲大師背后是由卡內(nèi)基梅隆大學(xué)Tuomas Sandholm教授發(fā)明的人工智能Libratus,和AlphaGo不同,Libratus不需要提前背會(huì)大量棋譜,也不局限于在公開的完美信息場(chǎng)景中進(jìn)行運(yùn)算,而是從零開始,基于撲克游戲規(guī)則針對(duì)游戲中對(duì)手劣勢(shì)進(jìn)行自我學(xué)習(xí),并通過(guò)博弈論來(lái)衡量和選取最優(yōu)策略。
AlphaGo也通過(guò)和自己下棋來(lái)學(xué)習(xí),但在此之前會(huì)分析人類玩家的棋譜學(xué)習(xí),再和自己下棋來(lái)提高棋藝。
在此次比賽和1月匹茲堡的兩次德?lián)淙藱C(jī)對(duì)戰(zhàn)中,Libratus和冷撲大師在三個(gè)主要技術(shù)模塊中都使用了新的算法:包括比賽前采用近于納什均衡策略的計(jì)算(Nash Equilibrium strategies)、每手牌中運(yùn)用終結(jié)解決方案(Endgame Solving)、以及根據(jù)對(duì)手能被識(shí)別和利用的漏洞,持續(xù)優(yōu)化戰(zhàn)略打得更為趨近平衡。
這也是冷撲大師在后程越來(lái)越兇悍,讓人類玩家難以抵擋的原因之一。在五天的巔峰表演賽中,冷撲大師和中國(guó)龍之隊(duì)雙方共完成了36,000手牌,每天鏖戰(zhàn)10個(gè)小時(shí)。
比賽首日中國(guó)龍之隊(duì)與冷撲大師的積分差距為65,137記分牌,第二日人類落入低谷,差距347,565記分牌、第三日差距233,874記分牌、第四日人機(jī)大幅拉近為98,408記分牌、完賽日47,343記分牌,五天下來(lái)冷撲大師累計(jì)贏得792,327記分牌數(shù),平均22.0每百手損失大盲。
積分差距
中國(guó)龍之隊(duì)隊(duì)長(zhǎng)杜悅在談到五天的比賽感想時(shí)表示,“人工智能在對(duì)戰(zhàn)時(shí)不會(huì)受到情感、心理、體能等因素影響,且強(qiáng)大運(yùn)算能力遠(yuǎn)超人類大腦,不得不承認(rèn)冷撲大師很多手牌打得令人拍案叫絕”。
對(duì)此,創(chuàng)新工場(chǎng)李開復(fù)博士說(shuō),人工智能發(fā)展勢(shì)不可擋?!拔艺J(rèn)為,未來(lái)的人工智能領(lǐng)域不再是幾個(gè)小伙伴就可以打天下的時(shí)代了,而是需要頂尖的人工智能科學(xué)家、海量數(shù)據(jù)、強(qiáng)大的運(yùn)算能力、以及清晰行業(yè)應(yīng)用幾大閉環(huán)?!?/p>
李開復(fù)表示,希望冷撲大師對(duì)戰(zhàn)龍之隊(duì)這場(chǎng)人工智能的里程碑事件將推動(dòng)人們對(duì)于人工智能的認(rèn)知,人機(jī)撲克對(duì)戰(zhàn)中,我們看到了在爾虞我詐、概率不確定、非完美信息需要推理和情商的游戲里,機(jī)器一樣可以獲勝,而類似的場(chǎng)景在真實(shí)世界中比比皆是。人工智能已經(jīng)不再只和AlphaGo對(duì)標(biāo),人工智能已從不完美信息的處理,進(jìn)步到對(duì)不完美信息海量信息運(yùn)算,并具備了推理和學(xué)習(xí)能力。
他強(qiáng)調(diào),“我期待下一個(gè)更加高明的AI大師級(jí)應(yīng)用登場(chǎng),而我更愿意相信,這些應(yīng)用會(huì)來(lái)自優(yōu)秀的年輕創(chuàng)業(yè)者,而不是諸如BAT等的科技巨頭黑洞”。
會(huì)詐唬的AI
Libratus是一個(gè)玩無(wú)限德州撲克的人工智能程序,Libratus的策略并非基于專業(yè)玩家的經(jīng)驗(yàn),所以它的玩牌方式可能有明顯的不同。基于在匹茲堡超級(jí)計(jì)算機(jī)中心大約1500萬(wàn)核心小時(shí)的計(jì)算,它使用算法分析德州撲克規(guī)則,從而建立自己的策略,而且它能夠在比賽中,通過(guò)預(yù)測(cè)所有未來(lái)步驟的勝率來(lái)思考自己的下一步。
與圍棋強(qiáng)調(diào)計(jì)算和形式判斷能力不同,德州撲克更講究多人博弈過(guò)程,如何避免人性貪婪等弱點(diǎn),并將科學(xué)的概率統(tǒng)計(jì)與靈活的實(shí)戰(zhàn)策略很好地配合起來(lái)。在圍棋、象棋等游戲中,機(jī)器和人類在決策前可以獲得全部信息,而在德州撲克中,彼此無(wú)法得知對(duì)方的底牌是什么,也不知道發(fā)牌員發(fā)出的下一張牌是什么,在“不完整信息”下,人工智能需要根據(jù)經(jīng)驗(yàn)或概率統(tǒng)計(jì)知識(shí),猜測(cè)對(duì)手底牌和下一張牌的可能性,然后再制定自己的應(yīng)對(duì)策略。
“如果AlphaGo是一個(gè)超級(jí)天才,冷撲大師CMU系統(tǒng)其實(shí)一定程度上是一個(gè)EQ專家,是靠EQ來(lái)打敗你?!崩铋_復(fù)表示。表演賽為求降低發(fā)牌中的運(yùn)氣因素,機(jī)器人采用復(fù)式對(duì)稱發(fā)牌,兩兩成對(duì)的牌手其中一人將拿到與配對(duì)牌手對(duì)打的機(jī)器人底牌,因此六名牌手將拆分于兩個(gè)房間和冷撲大師對(duì)陣,比賽過(guò)程中還必須確保配對(duì)牌手彼此不能碰面交流。在整個(gè)比賽中,冷撲大師也經(jīng)常出現(xiàn)一些“詭異”的打法,例如時(shí)常超池下注,給對(duì)手造成極大的壓力,并做出人類出于心理原因做不到但是正確的bluff(詐唬)。
“AI利用增強(qiáng)學(xué)習(xí)技術(shù),從自我對(duì)局中學(xué)習(xí)最優(yōu)的撲克玩法,而避免從人類的既定模式中學(xué)習(xí)經(jīng)驗(yàn),這是非常重要的一點(diǎn)?!崩铋_復(fù)表示。不過(guò),據(jù)了解,目前Libratus的算法還只適用于無(wú)限制投注的一對(duì)一比賽,如果將比賽擴(kuò)展到更常見的多人制比賽,Libratus面對(duì)的挑戰(zhàn)會(huì)更大一些,還需要進(jìn)行策略上的升級(jí)與調(diào)整。
人工智能應(yīng)用挑戰(zhàn)
正如馬云所提及的疑問(wèn)一樣,人工智能打敗人類圍棋大師,所以會(huì)打撲克的人工智能在解決更為廣泛的現(xiàn)實(shí)問(wèn)題方面又有哪些價(jià)值?在李開復(fù)看來(lái),世界上大部分的信息還不是公開的,冷撲大師在面臨不完全或誤導(dǎo)信息時(shí)的推理能力,未來(lái)能夠解決在決策、外交、商業(yè)合作、談判方面的不確定性問(wèn)題,成為人類的“參謀”。
但如同谷歌人工智能大勝人類圍棋大師,使得AlphaGo的能力被充分認(rèn)知,但在商業(yè)化方法和能力方面卻并不明顯。以AlphaGo為例,需要學(xué)習(xí)數(shù)量龐大的棋局才可以掌握有效的下棋技巧,而冷撲大師目前的對(duì)戰(zhàn)形式也是一對(duì)一,而現(xiàn)實(shí)生活中德?lián)涫嵌嗳擞螒颍嗳擞螒蛟谟?jì)算上的復(fù)雜程度是目前冷撲大師所無(wú)法勝任的。
人工智能和冷撲大師所提煉出來(lái)的人工智能技術(shù)如何發(fā)揮其商業(yè)價(jià)值,李開復(fù)認(rèn)為仍需要滿足三個(gè)條件:海量的數(shù)據(jù)、數(shù)據(jù)有標(biāo)注、單領(lǐng)域。例如在金融領(lǐng)域,金融是虛擬的、由人創(chuàng)造的,數(shù)據(jù)量龐大且天生帶有標(biāo)注,譬如股票的漲停、小額貸款是否還錢、買了保險(xiǎn)后是否出事都是一種標(biāo)注,這使得AI在放貸、銀行、投資、保險(xiǎn)方面具有潛力。
“相較于告訴人們?nèi)斯ぶ悄苣茏鍪裁矗壳案匾姆吹故歉嬖V人們,人工智能不能做什么。”地平線機(jī)器人技術(shù)創(chuàng)始人兼首席執(zhí)行官余凱曾向第一財(cái)經(jīng)記者表示,在他看來(lái),人工智能進(jìn)一步拓展的首要挑戰(zhàn)就是數(shù)據(jù)不足的問(wèn)題。眾所周知,人工智能是建立在海量數(shù)據(jù)基礎(chǔ)之上,通過(guò)大數(shù)據(jù)訓(xùn)練,來(lái)優(yōu)化算法模型,以人臉識(shí)別技術(shù)為例,訓(xùn)練這一算法模型需要至少百萬(wàn)級(jí)別的圖片數(shù)據(jù)。
目前,人工智能主要是監(jiān)督式學(xué)習(xí),有監(jiān)督的訓(xùn)練就需要帶標(biāo)簽的數(shù)據(jù),因此數(shù)據(jù)的質(zhì)量和精準(zhǔn)度與輸出結(jié)果密切相關(guān)?!叭绾翁蕹龜?shù)據(jù)中的噪音、垃圾信息,獲取優(yōu)質(zhì)且?guī)в袠?biāo)簽的數(shù)據(jù)成為新挑戰(zhàn),這其中就涉及到無(wú)監(jiān)督式學(xué)習(xí)或者半監(jiān)督式學(xué)習(xí)。”地平線機(jī)器人技術(shù)聯(lián)合創(chuàng)始人、算法副總裁黃暢說(shuō)。
另一大挑戰(zhàn)在于深度學(xué)習(xí)的推廣和場(chǎng)景遷移能力不足,每個(gè)領(lǐng)域的數(shù)據(jù)都需要重新收集、標(biāo)準(zhǔn)和再訓(xùn)練,很難進(jìn)行跨領(lǐng)域推廣。這些挑戰(zhàn)也是人工智能工業(yè)界和學(xué)術(shù)界急需突破的問(wèn)題?!霸谡衅傅倪^(guò)程中,懂得深度學(xué)習(xí)的人很多,而懂得遷移學(xué)習(xí)、增強(qiáng)學(xué)習(xí),具備思辨能力的人很少?!钡谒姆妒絼?chuàng)始人、首席執(zhí)行官戴文淵告訴記者。
在實(shí)際應(yīng)用層面,人工智能仍有很長(zhǎng)的路要走。正如李開復(fù)在比賽結(jié)束后的回應(yīng)一樣:“人工智能已從完美信息的AlphaGo,延伸到了不完美信息的冷撲大師,人機(jī)對(duì)戰(zhàn)基本沒(méi)有懸念了,據(jù)聞AlphaGo近期即將來(lái)華和柯潔對(duì)戰(zhàn),其實(shí)已經(jīng)不再具有科學(xué)意義了,以后更應(yīng)該關(guān)注商業(yè)領(lǐng)域的人工智能,在金融、醫(yī)療、教育等領(lǐng)域產(chǎn)生的商業(yè)價(jià)值。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )