■AIを飛躍的に賢くする「世界モデル」とは何か？

MAG2 NEWS：AIを飛躍的に賢くする「世界モデル」とは何か？天才エンジニアが語るAGI(汎用人工知能)革命の“恐るべきワクワク感”2024.03.06より転載します。

貼り付け開始、

https://www.mag2.com/p/news/594398

「水は冷たいもの、でも湯気が出ている水は熱い。注意」「火は触ると熱くて、燃え移ることもある。危険」――まるで小さな子供が日々の生活を通して「この世界の性質」を少しずつ学んでいくように、今、AIが「経験則」を手に入れようとしています。これは「世界モデル（World Model）」と呼ばる概念で、人間のようにどんなタスクでもこなせる「AGI(汎用人工知能)」実現のカギを握るものだそう。Windows95を設計した日本人として知られるエンジニアの中島聡さんが分かりやすく解説します。（メルマガ『週刊 Life is beautiful』より）
※本記事のタイトル・見出しはMAG2NEWS編集部によるものです／メルマガ原題「人工知能とWorld Model」

プロフィール：中島聡（なかじま・さとし）
ブロガー／起業家／ソフトウェア・エンジニア、工学修士（早稲田大学）／MBA（ワシントン大学）。NTT通信研究所／マイクロソフト日本法人／マイクロソフト本社勤務後、ソフトウェアベンチャーUIEvolution Inc.を米国シアトルで起業。現在は neu.Pen LLCでiPhone/iPadアプリの開発。

「世界モデル（World Model）」って何だ？

少し前にもこのメルマガで触れましたが、人工知能とWorld Model（世界モデル）について考えていることを書いてみたいと思います。

World Modelとは、元々は、個々の人間（もしくは動物）が経験を通して学んだ「世の中がどうなっているか、どんな仕組みで動いているか」を心の中でモデル化したもので、メンタルモデルと呼ばれることもあります。具体的には、

重さがあるものは下に落ちる、投げたものは放物線を描いて下に落ちる
水には粘性がある、水の中では息ができない
水は冷たい場合が多いが、湯気が出ている水は熱い
海の水はしょっぱい
世の中のものは３次元構造を持っており、見る方向によって見え方が違う
火は触ると熱くて、燃え移ることがある
太陽の光は温かく、長い時間当たっていると日焼けしてしまう

などなどです。理科や化学の授業で学んだ物理の法則ではなく、純粋に経験則で学んだものを指します。

人工知能の研究が進むうちに、これと同様のことが人工知能の中でも起こっているらしいことが分かってきました。

経験を通して知識を習得しはじめたAI

LLM（大規模言語モデル）は、単に与えられた文字列を見て次の単語を予想するだけの単純な仕組みですが、パラメータ数を増やし、学習データを増やしたところ、次第に様々な「知識」を習得するようになり、それを一部の研究者たちが「人工知能の中にWorld Modelが作られつつある」と表現したのです。

これに関しては、最初は研究者たちの間でも意見が分かれました。

当初は、「LLMは単に統計的に次の単語を予測しているだけで、World Modelなど持っていない」と主張する研究者もいましたが、今では、「LLMがやっていることは学習データの『圧縮』であり、その結果、ニューラルネットの中にWorld Modelが作られる」という見方が主流です。

LLMは、大規模化が進むにつれ、それを作っている開発者たちも驚かせるような能力を発揮しました。研究者たちは、それらの能力が学習の結果「出現する（emerge）」という言葉を使って、その驚きを表現しましたが、まさにWorld Modelは、研究者たちが意図しなかったにも関わらず、LLMの中に出現してしまったのです。

このプロセスは、赤ん坊が世の中の様々な仕組みを理解して行くプロセスと似ていると言えます。

赤ん坊は、母親から教わらなくても、ものが下に落ちることは理解するし、（物理の授業を受けなくても）上に投げたものが放物線を描いて下に落ちることは理解します。つまり、経験を通して、赤ん坊の中にWorld Modelが「出現する」のです。

AIの「世界モデル」が急速に進化しはじめた理由

研究者たちは、単に文章データだけを扱うLLMに出現するWorld Modelには限度があることを知っていました。

「相対性理論とは何か」を大学教授のように説明できるLLMが、「その駐車スペースは小型車用だったけど十分に『〇〇〇』ので、そこに駐車することにした」という文章の空白を埋めるような単純な問題が解けないのは、文章データだけから作られる World Model に限界があるからです。

そこで、研究者たちが力を入れたのが、画像も処理できるマルチモーダルな人工知能の開発です。赤ん坊が耳からの情報だけでなく、目からの情報を使って World Model を取得するように、人工知能にも目を与えることにより、よりリッチなWorld Modelを作ることを目指したのです。

次ページ：2020年代のうちに「AGI（汎用人工知能）革命」が起こる

間もなくUnity等の物理エンジンに並ぶか

最初に作られたのは、Dall.E、Midjourneyなどの画像生成AIです。これらはLLMで使われているTransformerではなく、Diffusionという仕組みを使って、ノイズを除去する形で画像を生成するものでした。

結果として、人の顔はどうあるべきか、犬の特徴は何か、などの「知識」を持った人工知能が作られることになりました。LLMのそれとは異なりますが、広い意味でも World Model が出現していると言えます。

このマルチモーダルな World Model の構築を大きく一歩進めたのが、２週ほど前に紹介したOpenAI のSoraです。Soraは、TransformerとDiffusionを組み合わせ、LLMが文字列を生成するように、映像を時間軸に沿って生成することができる人工知能ですが、公開されたサンプルを見て分かる通り、「カメラを動かすと見え方がどう変わるか」「犬の毛はどう揺れるか」「海岸に打ち寄せる波はどう動くか」などの World Model が Soraのニューラルネットの中に出現していることが分かります。

ある意味、（Unreal EngineやUnityのような）ゲーム開発環境の「物理エンジン」に相当するものが、機械学習のみで、ニューラルネットの中に生まれつつあるのです。

OpenAI自身も、この World Model（もしくは物理エンジン）が不十分であることを認めていますが、Soraがまだ発表されたばかりのものであり、今後更なる進歩が期待できることを考えれば、１～２年で、ゲーム開発環境と比べて遜色のない「物理エンジン」が出現してしまっても不思議はありません。

2020年代のうちに「AGI革命」も。そのとき私たち人間は…

人工知能の中に、人間と同等の、もしくはそれ以上の精度を持つ World Model が出現する日は遠くないだろうことを考えると、AGI（汎用人工知能）と呼べるレベルの人工知能が、2020年代に作られても不思議はありません。

人間が行なっている知識労働の大半を、人工知能によって置き換えることが可能な時代がきてしまうのです。

技術者としてワクワクすると同時に、世の中がどうなってしまうのかが心配になります。

映画『ターミネーター』に描かれたように、人工知能が人間を攻撃する時代が来るとは思いませんが、人工知能によって人々の職が奪われた結果、失業者が街に溢れ、貧富の差がさらに大きく広がった時、今の形の民主主義が維持できるとは私には思えないのです。

World Model から少し話がそれてしまいましたが、そんな難しい問題の解決すら、人工知能に頼らなければならない時代が来るのかもしれません。

（『週刊 Life is beautiful』2024年3月5日号の一部抜粋です。続きはご登録の上お楽しみ下さい。メインコンテンツの「ライドシェアの解禁」に関する記事もすぐ読めます。初月無料です）

この記事の著者・中島聡さんのメルマガ

初月無料で読む

image by: metamorworks / Shutterstock.com

中島聡この著者の記事一覧

マイクロソフト本社勤務後、ソフトウェアベンチャーUIEvolution Inc.を米国シアトルで起業。IT業界から日本の原発問題まで、感情論を排した冷静な筆致で綴られるメルマガは必読。

有料メルマガ好評配信中

貼り付け終わり、

タマちゃんの暇つぶし

直ぐに消されるので、メインはこちらです→　http://1tamachan.blog31.fc2.com/

■AIを飛躍的に賢くする「世界モデル」とは何か？