第206章 玄清杯(2 / 3)

就是如何在全局和局部之間找到那個最大的平衡點。

唐玄生也有些好奇真正最後糖糖拿給自己的棋譜會不會是像古代傳說中那些仙人的棋譜。

古代有些棋譜明顯的看的出來和當時的下法天差地別,這說明還是有厲害的腦洞大開的世外高人的。

很快辣椒蘿卜和圓晶廠的官網上麵就登出了圓晶廠拿出一億彩頭挑戰阿爾法狗的新聞。這甚至還導致股價波動了一下,當然還有後續的辣椒蘿卜圓晶廠,也就是唐家舉辦的玄清杯世界圍棋大賽。

超高的獎金往往才能出現精彩對局,也就是重賞之下必有勇夫。

其實早在2017年5月,在柯潔與阿爾法圍棋的人機大戰之後,阿爾法圍棋團隊宣布阿爾法圍棋將不再參加圍棋比賽。2017年10月18日,deepmind團隊公布了最強版阿爾法圍棋,代號alphago zero。

也就是說人家算是功成身退了,糖糖真正要挑戰的應該是最強版的阿爾法狗。

阿爾法圍棋(alphago)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智能機器人,由穀歌(google)旗下deepmind公司戴密斯?哈薩比斯領銜的團隊開發。其主要工作原理是“深度學習”。

2016年3月,阿爾法圍棋與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝。

2016年末2017年初,該程序在中國棋類網站上以“大師”(master)為注冊帳號與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績。

2017年5月,在中國烏鎮圍棋峰會上,它與排名世界第一的世界圍棋冠軍柯潔對戰,以3比0的總比分獲勝。

圍棋界公認阿爾法圍棋的棋力已經超過人類職業圍棋頂尖水平,在goratings網站公布的世界職業圍棋排名中,其等級分曾超過排名人類第一的棋手柯潔。

阿爾法圍棋係統主要由幾個部分組成:

一、策略網絡(policy network),給定當前局麵,預測並采樣下一步的走棋。

二、快速走子(fast rollout),目標和策略網絡一樣,但在適當犧牲走棋質量的條件下,速度要比策略網絡快1000倍。

三、價值網絡(value network),給定當前局麵,估計是白勝概率大還是黑勝概率大。

四、蒙特卡洛樹搜索(monte carlo tree search),把以上這三個部分連起來,形成一個完整的係統。

阿爾法圍棋(alphago)此前的版本,結合了數百萬人類圍棋專家的棋譜,以及強化學習的監督學習進行了自我訓練。

alphagozero的能力則在這個基礎上有了質的提升。最大的區別是,它不再需要人類數據。

也就是說,它一開始就沒有接觸過人類棋譜。研發團隊隻是讓它自由隨意地在棋盤上下棋,然後進行自我博弈。

alphagozero使用新的強化學習方法,讓自己變成了老師。係統一開始甚至並不知道什麼是圍棋,隻是從單一神經網絡開始,通過神經網絡強大的搜索算法,進行了自我對弈。

隨著自我博弈的增加,神經網絡逐漸調整,提升預測下一步的能力,最終贏得比賽。更為厲害的是,隨著訓練的深入,阿爾法圍棋團隊發現,alphagozero還獨立發現了遊戲規則,並走出了新策略,為圍棋這項古老遊戲帶來了新的見解。

也就是說糖糖要挑戰的是最終最強的阿爾法狗。但有個優勢就是,最強版本的阿爾法狗其實也是一種自我學習狀態。但作為真正的人工智能,糖糖是站在一個全新的高度來俯視的。

唐玄生想了想,畢竟也是一億的賭局,索性讓糖糖去香江和孫小聖一起進行封閉訓練。也讓孫小聖學習一下圍棋,同時也是個最好的對手,看看兩人究竟誰更厲害。