世界トップの棋士に勝利した人工知能「アルファ碁」を開発したディープマインド社が、さらに強力なAI「アルファ碁ゼロ」を開発しました。今度のAIは、人間の棋士によるデータを学習することなく、独学で学んだとしています。
人工知能は、音声認識や画像分類をはじめとする多様な分野で急速に進歩を続けています。しかし、多くの場合は膨大な量の人間による専門知識やデータを必要としており、今後も汎用的にAIを進歩させるためにはデータ取得の問題が横たわっています。
そのため、人間によるデータの入力を必要とせずにAIが自ら学び続けるアルゴリズムの作成が今後の課題ともなっています。
独自の強化学習のみで進化したアルファ碁ゼロ
以前のAI「アルファ碁」は、過去に人間の棋士が対戦した膨大な棋譜を「教師データ」として学習した後にAIどうしが対局を繰り返して「強化学習」することで、上達することに成功しました。
しかし今回新たに開発された囲碁AI「アルファ碁ゼロ」は、人間による棋譜のデータを使っておらず、自己対局による強化学習のみで上達しました。
490万回の自己対局の後に李九段に勝利したAIとの対局で100戦全勝しており、さらに
2900万回の自己対局の後には、トップ棋士らに60戦全勝したAI「アルファ碁マスター」にも勝利したという。
AIには最初、碁のルールのみを教えており、当初は石をランダムに並べていたが、自己対局を繰り返すうちに急速に上達しました。
その結果、人間が長年にわたって編み出してきた「定石」をも独自に発見し、さらには「未知の定石」をも使うようになったとのこと。
教師データなしで学習することの意味
従来の方法では人間による対局データを教師として学習していたため、人間が生み出した知見の延長線上に過ぎず、「人間の代わり」に過ぎない面があります。
しかし、今回のように教師データを使わずにゼロから独学することで、人間が考えもしない方法を発見する革新的なAIを生み出す可能性を秘めています。
また、AIを学習させるための教師データを必要としない手法であることから、膨大なデータの取得が難しい分野での人工知能の活用という道も拓ける可能性があります。
ディープマインド社のデミス・ハサビス最高経営責任者は、「AIは人間の知力を前進させ、全人類に前向きな影響をもたらす可能性がある」とコメントしています。
AlphaGo Zero: Learning from scratch