グランツーリスモのプロゲーマーにAIが勝利した。
AIと言えば囲碁AI「アルファ碁」がプロ棋士を圧倒してしまうように、全てのゲームで最強なのかと思いきやそうではないようだ。
手番で自らの選択肢を絞る囲碁と違い、グランツーリスモはコースや相手の車の位置など多くの条件から、瞬時にハンドルの切り方や加速の仕方など複数の決定をしなければならない。
このようなゲームはAIの開発が難しいとされてきた。ソニーは人が「正解」か「不正解」かを教えるのではなく、AI自身が試行錯誤しながら学習する「強化学習」のモデルを作った。AI同士が計数万時間、数百万キロ分のレースを繰り返し、効率的な走り方や相手を追い抜く駆け引きを学んだ。
更に、ただ勝つだけでなく「露骨な妨害をしない」といった明確な定義が難しいマナーもある程度習得できたという。
人間社会のマナーを学習できたという点も興味深いが、ゲームの仮想空間で複雑な場面設定の学習ができるということは、車の自動運転プログラムにもつながりそうだ。
『参考資料』

