AlphaZero

AlphaZero是DeepMind所開發的人工智能軟體^[1]。

簡介

AlphaZero使用與AlphaGo Zero類似但更一般性的演算法，在不做太多改變的前提下，並將演算法從圍棋延伸到将棋與國際象棋上。AlphaZero與AlphaGo Zero不同之處在於^[1]：

AlphaZero的超参数是寫死的。
AlphaZero現在會不斷更新人工神经网络。
圍棋在某些情況是對稱或是可旋轉的，AlphaGo Zero的程式利用這個特性降低計算複雜性，AlphaZero因為延伸到將棋與國際象棋則拿掉了這段程式。
西洋棋有已知的和局終局資料庫（英语：Endgame tablebase），所以AlphaZero利用這個終局資料庫納入計算。

與Stockfish以及elmo的比較

AlphaZero基於蒙特卡洛树搜索，每秒只能搜尋8萬步（西洋棋）與4萬步（將棋），相較於Stockfish每秒可以7000萬步，以及elmo（日语：elmo (コンピュータ将棋ソフト)）每秒可以3500萬步，AlphaZero則是利用了類神經網路提昇了搜尋的品質^[1]。

訓練

AlphaZero使用了5,000顆第一代的TPU進行訓練。

成績

西洋棋

在4小時的訓練後（約自我訓練4400萬局^[1]^{:Table S3}），AlphaZero以28勝72和0敗的成績打敗Stockfish^[1]^{:Table 1}。

將棋

在12小時的訓練後（約自我訓練2400萬局^[1]^{:Table S3}），AlphaZero以90勝2和8敗的成績打敗elmo（日语：elmo (コンピュータ将棋ソフト)）^[1]^{:Table 1}。

圍棋

在34小時的訓練後（約自我訓練2100萬局^[1]^{:Table S3}），AlphaZero以60勝40敗的成績打敗AlphaGo Zero^[1]^{:Table 1}。

相關連結

AlphaGo Zero
DeepMind
ELF OpenGo
KataGo

參考資料

^ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 ^1.7 ^1.8 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. 2017-12-05 [2018-05-09]. （原始内容存档于2017-12-08）.

外部連結

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm（页面存档备份，存于互联网档案馆），AlphaZero的論文。
Game Downloads（页面存档备份，存于互联网档案馆），AlphaZero與西洋棋軟體Stockfish的對弈記錄。
Chess.com Youtube playlist for AlphaZero vs. Stockfish（页面存档备份，存于互联网档案馆）

frontpage hit counter