MIT Tech Review: 大規模言語モデルは内部で何をやっているのか? 覗いて分かった「奇妙な回路」

 

MIT Tech Review: 大規模言語モデルは内部で何をやっているのか? 覗いて分かった「奇妙な回路」」がちょっと面白い。

 

「Claude(クロード)の開発元であるアンソロピック(Anthropic)は、大規模言語モデルがどのように返答を作り出しているのか、その動作の一端を解明した。その結果は人間の直感に反する、意外なものだった。

・アンソロピックは「回路追跡」技術を使い、LLMの内部動作を可視化した

・LLMは独自の計算法を使い、詩の結末を先に決め、言語の違いを超えて思考する

・この研究はAIの「ブラックボックス問題」解決への重要な一歩となる

summarized by Claude 3」

 

「LLMの仕組みが謎に包まれているのは周知の事実だ。これほどまでに仕組みが理解されていない大衆向けテクノロジーは、そうそうないだろう。その仕組みを解明することは、科学界においても最大の未解決課題の一つとなっている。」

 

「バトソン研究員らのチームは、3月27日に発表した2本の報告書でこの研究成果を紹介している。1本目は、アンソロピックが用いた「回路追跡(circuit tracing)」と呼ばれる手法について説明したものだ。これは、LLMの意思決定プロセスをステップごとに追跡できる技術である。アンソロピックはこれを用いて、同社のLLM「Claude 3.5 Haiku(クロード3.5ハイク)」がさまざまなタスクを実行する様子を観察した。2本目の報告書『On the Biology of a Large Language Model:大規模言語モデルの生態について』では、10の具体的なタスクに焦点を当て、そこで得られた発見を詳しく解説している。」

 

「回路とは、モデル内の異なる部分(コンポーネント)を連結する構造である。アンソロピックは昨年、現実世界の概念に対応する複数のコンポーネントをClaudeの内部から特定した。その中には「マイケル・ジョーダン」や「緑」といった具体的な概念もあれば、「個人間の対立」といった抽象的なものも含まれていた。中には、ゴールデン・ゲート・ブリッジを象徴するように見えるコンポーネントもあり、研究者がこの内部コンポーネントを調整すると、Claudeが自らをLLMではなく、橋(ゴールデン・ゲート・ブリッジ)そのものになりきって振る舞うようになったという。興味深い挙動である。」

 

Stephanie Arnett/MIT Technology Review | rawpixel, Adobe Stock

 

小松 仁