人工知能と将棋ソフトに関することで、今までに述べてきたことは、アルファ碁やアルファゼロ等の海外のことがメインで、日本における将棋ソフトの歴史については、ほとんど触れていませんでした。 |
そこで今回は、時系列的に原点に戻り、日本の将棋ソフトの歩んできた道のりについて、説明したいと思います。 |
|
日本の将棋ソフトは、チェスや囲碁のソフトの発展とは、かなり異なる流れで強くなってきた
歴史があります。 |
ハードウェアの向上に頼らずに、ひたすらにソフトを強くすることで、日本の将棋ソフトは進化を遂げてきました。 |
ソフトを強くしなければいけなかった一番大きな理由は、「予算の差」です。 |
|
チェスのディープ・ブルーであれば、IBMという大企業が開発を行い、アルファ碁であれば、
少なくとも学習時にはグーグルのデータセンターとハードウェアを使っています。 |
巨大な資本の投下で、物量に物を言わせるのが欧米流である。 |
ところが、日本にはそんな予算をねん出できる研究現場がなかった。 |
電王戦に登場した将棋ソフトは、基本的には個人が片手間で、しかし類いまれなる情熱によって生み出したものです。 |
そういう人たちが、手を替え品を替え、競い合うようにして、ひたすらに工夫を重ねてきた。 |
それが、日本の将棋ソフトの歴史です。 |
その中でもBONANZAの残した功績は絶大です。 |
BONANZA革命と呼ばれる所以です。 |
日本の将棋ソフト界の歴史を振り返ると、BONANZA以降に集約されると思います。 |
以下は、代表的な3つの将棋ソフトについての解説です。 |
|
BONANZAについて |
|
2006年世界コンピューター将棋選手権に初出場で優勝した。 |
製作者の保木氏は将棋の経験がほとんどなく、コンピューターチェスで試されていた斬新な計算方法を将棋で試すことにした。 |
その方法とは、先ずコンピューターに江戸時代からのあらゆる対局記録50万局分を覚え込ませた。 |
そして、もう一つ別の常識破りのすごい方法があり、将棋の盤上から適当に3つの駒を選びその3駒が描く図形に注目した。 |
局面が変わればその3駒が描く図形も変わる。 |
過去の膨大な局面でどんな図形が良く現れるかを調べあげた。 |
その結果、頻繁に現れる図があることを発見した。 |
これらが勝利に繋がる図形として、コンピュータープロミングした。 |
今、これを書いている私にとって、この「3駒関係」の理論は、難しすぎて理解不能でした。 |
最下段の動画 サイエンスゼロをご参照ください。 |
|
最適手を選ぶに当たって、人間であれば「大局観」を用いて絞り込んでいくが、コンピューターの場合は、局面の評価を数値化して、その上で一番良い手を選ぶ。 |
将棋の展開で考えられる様々な局面をリストアップし、それぞれに得点を付ける。 |
これを評価関数と言う。考えられる全ての局面に得点を付け、得点が最も高い手を最善手だと判断する。 |
この評価関数については、2005年に公開された将棋ソフトBONANZAの登場が決定的
だった。 |
BONANZAが登場するまでは、将棋のプログラムはアマチュア五段ぐらいで伸び悩んでいたが、最近は目覚ましい発展を遂げている。 |
これは、評価関数のアルゴリズム(答えを導き出すための計算方法)のすごさもさることながら、「オープンソース」という、無償かつ誰もが自由に使える形で公開・配布されたことが大きい。 |
ここ数年でも、エイプリーや技巧などの優れたソフトがオープンになっている(現在はドルフィンやエルモもオープン化されている)。 |
その結果、ソフトの進化の速度は上がって、1年ほどでスタンダードが変わり、優秀なプログラムがどんどん上書きされている。 |
気づいたら去年の山の頂上が、今年は5合目になっているような感じである。 |
|
BONANZAのソースコード公開が将棋ソフトの発展の基礎になったという認識である。 |
2005年から2015年まで10年のレートの進歩が約1000、 その10年で将棋倶楽部24の五段くらいからプロ棋士のトップレベルに登りつめた。
驚くべきなのはその後の2~3年で更にレートが1000伸びている点である。人間のトップからさらにレート1000くらい強いというのはなかなか想像しづらい。 |
|
GPS将棋について |
|
GPS将棋の特徴は、BONANZAでうまく行った方法をたくさんのコンピューターで実現する方法を最初に開発した。 |
それが成功し、世界コンピューター選手権で2回優勝している。 |
GPS将棋を制作したのは、東京大学のゲームプログラミングセミナー。 |
この一戦のために秘策を用意していた。大学のパソコン教室にある約680台ものパソコンを繋げ、1秒間で最大2億8000手を計算できるようにした。 |
|
1局指したら10の220乗の指し手がある。 |
宇宙全体の原子の数が約10の80乗である。 |
プロ棋士はどうやって指す手を選んでいるかは科学的に証明されており、直観によるもの、絞られた選択肢の中から瞬時に最善手をみつけている。 |
正に直観で良い手を選択している |
|
ポナンザについて |
|
人工知能の性能を高める学習方法に「教師あり学習」というものがある。 |
入力した「教師データ」は、プロ棋士の過去20年分の対局、計5万局分の棋譜。 |
ポナンザはこの教師データを基に、どの局面でどう駒を配置すれば勝ちに繋げるかのか、解析していった。 |
プロ棋士をも超える能力をポナンザが獲得するきっかけとなる。 |
|
その後、ポナンザはプロ棋士という教師に頼らず、自ら学習を始めた。 |
それが「強化学習」と呼ばれる方法だ。 |
「自分で考え、そのフィードバックからさらに自分で学習する」というもの。 |
まず、ポナンザ同士を対局させる。 |
数分で1局の対局が終わる。 |
さらに膨大な数の対局を休みなく行わせて、ポナンザはその中から、勝利の方程式を自ら見つけ出していくのだ。 |
これにより、ポナンザの進化の速度は、飛躍的に増した。 |
例えば、かつては前の年に開発した古いプログラムと対局した際、7割勝てば相当強くなったという認識だったのが、今は8~9割の勝率が当たり前だという。 |
|
人間の棋士をはるかに上回る数の実戦。 |
ポナンザは700万局にも及ぶ自己対戦を行っていた。 |
人間が1年に3000局の対局をしたとしてもおよそ2000年かかる計算(公式戦は男女合わせて
年間3000局程度)。 |
プロ棋士がこれまで行った対局の総数が10万といわれており、それをはるかに超えている。 |
コンピュータは疲れないから、ポナンザは基本的に24時間休みなく動いている。 |
膨大なデータを超高速で読み解く人工知能の思考過程をもはや人間は理解できない。 |
ちなみに、ポナンザと言う名称は、開発者山本さんがBONANZAに敬意を表して命名されたとのこと。 |
|
|
日本の将棋ソフト界の歴史について |
将棋ソフトの開発が始まったのは1970年代中頃のこと |
|
1.2007年渡辺明竜王対BONANZAの特別対局が組まれ、渡辺竜王の勝利 |
2.2010年女流棋士トップだった清水市代女流王将が将棋ソフト「あから 2010」に敗北 |
3.2012年第1回電王戦では、現役引退後、日本将棋連盟会長を務めていた米長邦雄永世聖 が「ボンクラーズ」に敗北 |
4.2013年第2回電王戦では、プロ棋士5人対5つの将棋ソフトで行われた団体戦 結果はプロ側の1勝3敗1分け |
5.2014年第3回電王戦では、プロ側の1勝4敗 |
6.2015年電王戦FINALでは、プロ側の3勝2敗 |
7.2016年装い新たに始まった第1期電王戦では、まずトーナメント・叡王戦によって、プロ棋士の代表である叡王を決定する。 |
そしてその叡王が、電王トーナメントを勝ち上がった将棋ソフトと対局する個人戦である |
山崎隆之叡王とポナンザの対戦結果は、ポナンザの2戦2勝 |
8.2017年第2期電王戦では、トーナメンとを勝ち上がった佐藤天彦名人とポナンザが対戦し、ポナンザの2戦2勝 |