AnthropicがAIの「ブラックボックス」の一部解明に成功

「Claude3」の開発企業 Anthropicは2024年5月21日、AIの「ブラックボックス」を解読することに初めて成功したと発表した。この研究成果は、AIの内部作動原理を理解し、安全で信頼性の高いAIの開発に向けた重要な一歩となる。

2024年5月21日、AIモデルの内部構造に関する重要な進展が報告された。Anthropicの研究者は、大規模言語モデル「Claude Sonnet」内部の数百万の概念がどのように表現されているかを特定した。これは現代の実用的な大規模言語モデルの内部を詳細に解析した初めての試みであり、この解釈可能性の発見は将来的にAIモデルをより安全にする助けとなる可能性がある。

Anthropicは、同社のLLM Claude3シリーズの1つである「Claude Sonnet」を用いて「ディクショナリーランニング」という技法を駆使し、AIの内部で数百万個の「特徴」を抽出・概念化した。これにより、AIがどのように情報を処理し、概念を内部で組織化しているかを明らかにした。

AIの「ブラックボックス」とは？

これまで、AIの作動原理は「ブラックボックス」と呼ばれてきた。これは、AIがどのようにして特定の回答にたどり着くのかが開発者にも理解できないためである。しかし、このたびの研究により、このブラックボックスの一部が解明され、AIの思考過程の一端が明らかになったと同社は述べる。

研究の具体的成果

研究の一例を挙げると、研究チームは、Claude Sonnet 内部の「ゴールデンゲートブリッジ」という単語に関連する特徴を解析した。その結果、関連する他の概念（アルカトラズ島、カリフォルニア州知事、ヒッチコック映画『めまい』など）が活性化することが確認されたという。

さらに、これらの特徴を人工的に増幅または抑制することで、AIの生成結果を変えることができることが示された。例えば「ゴールデンゲートブリッジ」に対するバイアスを強めると、Claude Sonnet は「私はゴールデンゲートブリッジだ」と答えるようになるという。この技術により、AIの生成するテキストの内容を操作し、より安全でバイアスの少ない結果を得ることが期待されるとした。

研究の重要性と今後の展望

研究チームは、この研究成果が、AIのハルシネーション（幻覚）やバイアスの問題を減らす可能性があり、特に医療や金融、司法などの重要な分野でのAIの安全性と信頼性向上に寄与するという。同社はさらにこの研究がAIの解釈性を高め、より透明で説明可能なシステムの開発に繋がることを目指すとのこと。