AMPから生成AIが嘘をつく「幻覚症状」問題、最新のベンチマークテストで明らかになった最も正確なAIモデルとは? この記事で、面白いことが書いていたのでまとめます。
この記事では、AIの正確な情報を生成するのかを調べ指数化する「幻覚症状指数」について書いてます。
https://ampmedia.jp/2023/12/11/hallucination-benchmark/
・「幻覚症状(hallucination)」
AIが事実と異なる情報を勝手に作り出してしまう現象のこと
・「大規模言語モデル幻覚症状指数(LLM Hallucination Index)」
生成AIアプリケーションのベースとなる主要大規模言語モデルがどれほど正確な情報を生成するのか(幻覚症状にならないのか)を調べ、指数化したもの。
「LLM Hallucination Index
シリコンバレーのAI企業Galileoが2023年11月15日に発表した「LLM Hallucination Index(大規模言語モデル幻覚症状指数)」
このベンチマークレポートにおいては、3つの方法で各AIモデルの正確性が調査されました。
- 外部情報を与えずAIモデルの情報のみで回答を生成させた場合
- AIモデルに外部情報を与え回答を生成させた場合
- 長文回答を生成させた場合
結論:これら3つの方法において、いずれも正確性でトップとなったのは、OpenAIのフラッグシップモデルである「GPT-4-0613」
※ 長文生成ではAIモデルの正確性を「Correctness Score(正確性スコア)」という指標で測っています。
スコア順に並べると、
GPT-4-0613(スコア=0.83)
Llama2-70b-chat(0.82)
GPT-3.5-turbo-1106(0.82)
GPT-3.5-turbo-0613(0.81)
Llama2-13b-chat(0.79)
Zephyr-7b-beta(0.74)
GPT-3.5-instruct(0.74)
Llama2-7b-chat(0.72)
Falcon-40b-instruct(0.70)
Mistral-7b-instruct-v0.1(0.65)
「まとめ」
このベンチマーク調査では、GPT-4を筆頭にOpenAIのGPTモデルが全体的に高いパフォーマンスを示した一方で、長文生成や外部情報を与えた場合には、GPTモデルとオープンソースモデルの差が縮まる傾向が観察された。そのような用途においては、オープンソースモデルも十分に選択肢となり得る可能性を示す調査結果といえる。
Hallucination Leaderbord
このHallucination Leaderbordでは「Accuracy(正確性)」と「Hallucination Rate(幻覚症状率)」で、各AIモデルの正確性を測定しています。
別のシリコンバレーAI企業Vectaraが2023年11月に発表した「Hallucination Leaderbord(幻覚症状リーダーボード)」がGalileoのベンチマークレポートを補完する役割を担います。
リーダーボードにおける正確性でトップに位置するのは、やはりGPT-4。正確性は97%(幻覚症状率3%)と非常に高いスコアを記録した。
2023年11月にリリースされたばかりのGPT-4 Turboも正確性97%で同率1位です。
スコア順
GPT-3.5 Turboが96.5%
メタのLlama2 70bが94.9%
Llama2 7bが94.4%
Llama2 13bが94.1%
CohereのCohere Chatモデルが92.5%
Cohereモデルが91.5%
AnthropicのClaude2が91.5%
グーグルPalm2(beta)が91.4%
Mistral 7bが90.6%
グーグルPalm2 Chat(beta)が90%
「まとめ」
OpenAIのGPTモデルにメタのLlama2モデルが僅差で追う状況はGalileoの調査でも示されたところ。注目すべきは、Anthropic、Cohere、グーグルの各モデルの正確性に関するパフォーマンスとその位置づけが明らかになった点だろう。
(感想)
AIのハルシネーション。
GPT-4「正確性は97%(幻覚症状率3%)」
ボクより賢いじゃん(笑)