阿爾法狗打敗人類棋手不算啥 人工智能玩撲克更有難度

《終結者》、《我,機器人》和《A.I.人工智能》只是過去四十年中反映人工智能發(fā)展超過人類并導致人類毀滅這一主題的眾多電影中的幾個例子?!睹绹侣勁c世界報道》的Jeff Nesbit表示,雖然這種情況在近期內(nèi)發(fā)生的可能性仍然不大,但是很多人認為這個主題里的第一部分——人工智能會超過人腦的水平,達到超級人工智能水平(artificial superintelligence,ASI)——這一情況將會在未來三十年內(nèi)的某個時刻實現(xiàn)。

ASI是否會導致人類的終結還有待觀察,但人工智能最近在撲克界取得了很大的突破。

AI與撲克大戰(zhàn)30年 為何現(xiàn)在才全面碾壓

人工智能與撲克的“戰(zhàn)斗史”可追溯到1984年,那一年,Mike Caro創(chuàng)建了一款名為Orac的基礎撲克人工智能軟件以征戰(zhàn)World Series of Poker(世界撲克系列賽,世界撲克比賽中一項最權威、最受尊重的賽事。WSOP與WPT,EPT并稱世界三大撲克賽事)。可以說,人工智能與撲克的“戰(zhàn)爭”已經(jīng)打了30多年。

從那時起,人工智能在撲克領域的發(fā)展勢頭非常迅猛,最近的一份信息圖以視覺化的方式提供了撲克領域人工智能研究進展的深度介紹和統(tǒng)計概覽,同時提供了到目前為止研究提煉出的見解。

對人工智能而言 打敗牌手比打敗棋手更難

幾個月前,幾個在線撲克網(wǎng)站的社論撰稿人和社區(qū)經(jīng)理Josh Wardini在PokerSites博客上發(fā)表了題為《撲克和人工智能:機器對人類的興起》的信息圖。Wardini提供了在過去30年中撲克和人工智能之間關系的介紹。

人工智能應用于策略游戲是最流行的方向。在過去二十年中,人工智能在各種游戲中擊敗了人類,包括國際象棋、圍棋和《危險邊緣》(譯注:哥倫比亞廣播公司益智問答游戲節(jié)目)。在過去十年中,大部分研究已轉向創(chuàng)造會玩撲克的人工智能程序。

你可能會問的一個問題是:為什么是撲克?

國際象棋大師Garry Kasparov在2010年發(fā)文指出了國際象棋和撲克的區(qū)別:國際象棋100%的信息博弈——兩個玩家都會同時獲知相同的數(shù)據(jù)信息——與計算機敏感的計算能力相比,玩撲克牌可以隱藏自己的牌,其中有很多變量和不確定性,概率、以假象迷惑對手的心理層面因素、風險管理等在撲克牌中十分關鍵。似乎是撲克完全基于人類心理活動的方面令其在面對計算機時顯得無懈可擊。一臺機器可以很容易地計算出每一手牌的可能性或者概率,但在面對低概率同時卻是高賭注的時刻,人工智能卻并不占優(yōu)勢。

Wardini認為,大學的人工智能部門是因為撲克的復雜性而對這種游戲進行研究的。像許多現(xiàn)實生活中的情況一樣,“撲克要處理很多不完善信息”,并且人工智能的目標是解決反映在撲克中的問題。

Carnegie Mellon University (卡內(nèi)基梅隆大學,CMU)博士生及人工智能研究員Noam Brown表示,在不限注的德州撲克單挑比賽中有10的163次方(10后面接著有163個零)不同的游戲情況,假設啟動堆棧為20,000個芯片,那么即使是最強的計算機也不可能計算所有可能的情況。

人工智能在撲克上取得突破 Libratus戰(zhàn)勝頂級職業(yè)牌手

人工智能在撲克領域的研究主要來自University of Alberta(阿爾伯塔大學),University of Auckland(奧克蘭大學)和前面提到的CMU。CMU在撲克界赫赫有名,其推出了兩款人工智能程序Claudico和Libratus,并在最近挑戰(zhàn)了一些頂級的撲克玩家。

雖然Claudico獲得了多場勝利,但在2015年,Claudico被一個由Doug Polk、Bjorn Li、Dong Kim和Jason Les四名玩家組成的團隊擊敗,但Claudico也一路獲了多場勝利。

Doug Polk曾對《PokerNews》表示,Claudico“使用了一個非常復雜的策略,包括許多大大小小的賭注”,但人工智能技術還是存在一些漏洞。

經(jīng)過改進迭代的Libratus,在2017年1月挑戰(zhàn)了四名頂級職業(yè)撲克玩家,Kim和Les回歸了第二場戰(zhàn)役,Jimmy Chou和Daniel McAulay加入了他們的團隊。最后,Libratus擊敗了這一組世界級的德州撲克職業(yè)選手,并且是以每100手14倍大盲(譯者注:縮寫為14bb/100,意為玩100手牌,平均能贏對手14倍大盲注)完勝頂級人類玩家團隊。在Libratus對人類玩家12萬手牌的不限注德州撲克挑戰(zhàn)賽后,Libratus從四名職業(yè)玩家手中贏得了1,766,250美元的籌碼。

Dong Kim在比賽結束后接受了《PokerNews》Sarah Herring的采訪。他表示,“對于我們來說真的很難玩。我們會提出一個策略,這個策略可能在當天效果不錯,然后是第二天它就會帶來新的東西。我們則沒有為此做好準備,所以總體來說是真的、真的很艱難?!?/p>

為什么會這樣?Libratus會進行自我糾正,它每天晚上分析自己的打法,糾正錯誤,并在第二天使用不同的策略,但這不是全部。

不同于之前的Claudico,Libratus依賴于一種算法,該算法使用了數(shù)百萬內(nèi)核小時計算,這樣大量計算的實現(xiàn)要依靠的Pittsburgh Supercomputing Center(匹茲堡超級計算中心,PSC)“Bridges”源才變得有可能,它沒有使用固定的內(nèi)置策略。它也會隨機化自己的行為,使對手難以破譯它是否在虛張聲勢。最令人驚訝的是,Libratus不僅僅是一個人工智能在撲克領域的應用程序,而是可以應用于任何不完善的信息系統(tǒng),有無數(shù)潛在的應用可能。

Kim承認他的這個沒有血肉對手的能力令人印象深刻?!叭斯ぶ悄芡娴煤芎茫艺J為它有世界級的水平?!?/p>

當被問及他自己在打牌的時候可以使用哪些Libratus的策略時,Kim解釋說,人工智能程序的混合策略使其難以對抗。

Kim表示,“有很多很好的東西,我都想要在我自己打牌的時候融會進來,但真的很難做到。Libratus有一些真的非常好的策略,但也是一個混合的策略,所以當你用一個策略用得太多了一點,那么你的這一點就會非常容易被人利用,所以一般來說模仿或模擬很難,讓我們拭目以待吧。”

Libratus經(jīng)常在其壓倒性的打法中使用超額下注。Kim表示,“它使用超額下注比任何人都多。如果是一個人類玩家,那么說實在的,我們會認為這個家伙完全是一個技術拙劣的玩家,因為他用這招用得太多了。”

“實際上,當它超額下注的時候,它其實是在虛張聲勢。是的,它就是在大張旗鼓地虛張聲勢?!?/p>

CMU的研究員Brown,在2016年3月向《PokerNews》解釋稱:“這并不令人驚奇(Libratus會虛張聲勢),因為電腦正在做的是模擬數(shù)以萬億計手的牌,它對虛張聲勢的看法和我們并不一樣。它所做的只是反復地遇到這種情況,它注意到即使沒有很好的牌,仍然可以通過下注賺到更多的錢?!?/p>

人工智能戰(zhàn)勝人類牌手的關鍵因素是什么?

雖然大多數(shù)撲克玩家不會很快就與人工智能正面交鋒,但是看看人工智能如何打敗人類玩家所使用的技巧倒是很有價值的。是什么讓諸如Libratus之類的人工智能程序表現(xiàn)得這么好?

在玩撲克時有一些情緒本身并不是壞事——在某些情況下甚至可能是有益的——從某種意義上來說,在這個游戲中,將成功的職業(yè)玩家和不賺不賠或者是虧錢的業(yè)余愛好者區(qū)分開來的一個重要特征就是模仿人工智能的能力。

雖然大多數(shù)職業(yè)玩家和撲克教練都不會這樣說,但他們告訴有抱負的專業(yè)人士,在這個游戲中成功的關鍵是在游戲中做出決定時不要考慮錢。

2016年,Andrew Robl在《PokerNews》發(fā)表的一篇文章中,他表示要想成為一個成功的撲克玩家,應該具備六個特征,其中五個可以說是符合Libratus這樣的人工智能程序:經(jīng)驗、智力、欲望和學習的意愿(除掉欲望部分)、控制情緒的能力以及進行了次數(shù)多到令人想吐的比賽。

不過,第六個特征只適用于人類——社交和人際交往技能。人工智能在這部分的表現(xiàn)是糟糕的——至少在目前是這樣。

在情緒控制方面,人工智能相比于人類擁有明顯的優(yōu)勢,包括偏見和疲勞因素在內(nèi)。而當Libratus在連續(xù)落敗的時候,它不會生氣或者是感到沮喪,更不會毆打對手或者是在后面的對抗中狀態(tài)不佳。在經(jīng)歷了漫長的一整天磨礪之后,它不會感到精力不濟,更不會因此犯下錯誤。因此它是更好的玩家。

在同Libratus進行了對抗之后,Kim的一個評論凸顯出了人工智能與人類之間的關鍵區(qū)別:“我們并沒有想到會輸這么多,這是非常艱難的部分……這并不一定是因為人工智能本身。而是不斷地輸,隊伍的士氣非常低落。”

同時,Libratus不斷根據(jù)經(jīng)驗調(diào)整策略,始終如一地發(fā)揮最佳水平。

人工智能無法感覺到錢的價值,這讓它們能夠免受風險的影響,并且總是能夠實現(xiàn)“正確的”游戲理論最優(yōu)(GTO策略),即使在風險回報比例非常糟糕的情況下也是如此。這導致它們會大量使用虛張聲勢的戰(zhàn)術。

Libratus無論風險如何,都會做出最好的決定,它們沒有資金管理的概念,也不需要支付賬單,這也有助于它們做到這一點。

戰(zhàn)勝人類牌手也只是開始

Libratus的共同創(chuàng)始人Tuomas Sandholm在Carnegie Mellon(卡內(nèi)基.梅?。┑囊环莩霭嫖镏性u估了人工智能的勝利產(chǎn)生的影響。

他表示,“人工智能根據(jù)不完美的信息進行策略推理的能力現(xiàn)在已經(jīng)超過了人類。”

Polk在接受《PokerNews》采訪時回應了這種情緒,他注意到的Claudico的漏洞在Libratus中被修復了。

“對于我來說,現(xiàn)在事情已經(jīng)很清楚了,人類在不限注德州撲克單挑比賽中落后于形勢變化,我認為這種情況將繼續(xù)以其他形式發(fā)生。”

CMU的計算機科學系主任Frank Pfenning表示,融入虛張聲勢是一個關鍵概念,因為沒有這項能力就無法取勝。他說道,“開發(fā)一個能夠成功做到這一點的人工智能程序是科學前進的一個巨大進步。想象一下,有朝一日你的智能手機能夠為你要買的新車談判得到最優(yōu)惠的價格。這還只是開始。”

通過人工智能訓練牌手

看起來我們可以從這些會玩撲克的人工智能程序身上學到很多東西,但是不要矯枉過正——有一些撲克技巧,我們?nèi)祟惐葯C器更好。

雖然人工智能非常擅長通過模擬數(shù)萬億手牌來實現(xiàn)游戲理論最優(yōu)(GTO策略),但是由于針對特定對手,人工智能可獲得手牌的樣本數(shù)量有限,在對個人對手采用針對弱點的策略的能力較差。

Brown表示,“這是一個積極的研究領域,如何利用對手有限數(shù)量的樣本。我們不知道為什么人類玩家非常精于此道,這可能是人工智能的一個重要的薄弱環(huán)節(jié)。”

雖然撲克玩家可能會因為擔心沒有情緒的人工智能會賺走他們所有的錢而感到擔心震驚,但這些程序的發(fā)展實際上可以對他們的盈虧情況產(chǎn)生積極的影響。Wardini提到存在“人工智能模擬和培訓軟件可以幫助人類”,包括幫助玩家開發(fā)一種“平衡的、沒有漏洞可被利用的方法”并采用“更好的決策”來提高他們的游戲水平。

12下一頁>

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2017-10-20
阿爾法狗打敗人類棋手不算啥 人工智能玩撲克更有難度
《終結者》、《我,機器人》和《A.I.人工智能》只是過去四十年中反映人工智能發(fā)展超過人類并導致人類毀滅這一主題的眾多電影中的幾個例子。

長按掃碼 閱讀全文