白話AI:德撲人機大戰為什麼人類還有贏的可能_旗牌

小白該如何圍觀人機大戰?

  柏林森,資深計算機行業從業者,深度圍旗、德州撲克愛好者。此次以新浪旗牌特約評論員的身份和我們一起關注德州撲克人機大戰。我們精選了一些小白問題(其實就是小編自己想不明白的)來請教柏老師,制作了《白話AI》的欄目。

  問:李開復說德州撲克人機大戰人類勝率有10%,而圍旗是零,你怎麼看?

  答:我們假設真的有圍旗之神和德撲之神。圍旗之神能夠所謂窮儘變化,那麼你跟他下旗確實不可能贏。德撲之神判斷、計算能力無可匹敵,他能從你的行為中讀出你的手牌是對3,而他拿著對A。那麼這手牌,德撲之神肯定是“All IN”的。但河牌是有可能發出一張3的,最後輸的是德撲之神。

  圍旗和德撲有本質上的區別,圍旗是完全信息博弈,理論上有最優解。德撲是非完全信息,總是有概率的。德撲水平的較量要看長線收益,打得手牌越多,小概率事件所能造成的影響就越少。這次一共只打36000手,其實人取勝的概率比想象的大。

  可能要跟柯潔下人機大戰的AlphaGo當然還不是圍旗之神,但他距離圍旗之神的距離肯定比人類旗手近很多,人類旗手跟他下的勝率會很低很低。不過,在數學上0%並不代表著不能發生,只是在有限的時間里你可能觀察不到而已。所以一般這種事發生的時候,我們都稱之為奇跡。

德撲人機大戰直播畫面

  問:聽說冷撲大師沒有用最近比較熱的深度學習的技朮?

  答:冷撲大師用到的是一種叫做CFR(Counterfactual Regret Minimization)的框架。在雙人零和游戲(你贏的是我輸的)里,理論上是都存在納什均衡點的。這次人機大戰的德州撲克單挑賽制就是這樣,人類和機器的輸贏相加和為零,雙方的目的都是為了贏旗對手手里儘可能多的籌碼。

  我們用最簡單的剪刀石頭佈游戲舉例。我們可以很容易的想到,如果我很均勻的按三種各1/3的概率出,那麼無論對方怎麼出,最後的結果肯定是勝平負各佔1/3,而我不可能獲得更差的結果。

  如果對手只出石頭和剪子,在我1/3策略不變的前提下,ebet娛樂城,我的勝率還是1/3。但一旦我讀到了對手的策略,做出相應的改變,那麼對手的勝率將會大幅下降。所以對手的最優策略也應該各出1/3,九州信用版,這樣能夠保証自己的勝率不會低於1/3。

  各出1/3就是剪刀石頭佈這個雙人游戲里的納什均衡點。我們可以把德州撲克理解為一個復雜了無數倍的石頭剪刀佈,而且是根据不同的牌面情況還是不同方式的剪刀石頭佈,冷撲大師就是要找出各個狀態下不會輸的策略。

  具體到某個牌手,機器會通過數据分析牌手的策略,尋找其中的可利用性,加以打擊。這也是為什麼上一次冷撲大師與外國牌手人機大戰,前面差距不大,後面人類越輸越多的原因。

  所以目前看來冷撲大師和深度學習暫時沒什麼太大關係。

能按照訓練AlphaGo的方式訓練小白麼……

  問:我如果有足夠的高手牌譜,是不是能用深度學習訓練出德撲AlphaGo來?

  答:不能。兩者游戲的基本算法邏輯是有很大區別的。舉個例子,兩個高手打牌的各種操作,反餽到撲克游戲里,最後的結果可能並不一樣,因為勝負是有概率的。而兩位旗手按照固定的走法在旗盤上落子,最後的結果是肯定的,不是黑勝就是白勝。從這種意義上講,AlphaGo使用的那種旗譜學習的模式,是無法復制到德州撲克里的。

  (文玄)

相关的主题文章:
bot