AIは人を騙す方法を学んだ

AIは人を騙す方法を学んだ

2024年5月14日

FRONTNIEUWS

私たちは、人工知能（AI）が役に立つと聞いている。例えば、AIは私たちがコードを書いたり、文章を書いたり、膨大なデータを合成したりするのを助けてくれる。
また、ボードゲームで人間を出し抜いたり、タンパク質の構造を解読したり、初歩的な会話をすることさえできると報告されている。

しかし、新たな研究論文によれば、AIシステムは現在、意図的に我々を騙す方法を発見しているという。

しかし、新たな研究論文によれば、AIシステムは今、我々を故意に惑わす方法を考え出したという。

TGPの報道：論文によれば、一連のAIシステムは、「真実以外の結果を達成するために、他者に偽の信念を誘導する」テクニックを体系的に学んだという。

Business Insiderが報じている：

「メタ社のCICEROのような、特定のタスクを実行するように設計された特殊用途のシステムと、OpenAIのGPT-4のような、多様なタスクを実行するように訓練された一般用途のシステムである。

これらのシステムは正直であるように訓練されていますが、王道を行くよりも欺くトリックの方が効果的であるため、その訓練ではしばしば欺くトリックを教えます。

一般的に、AIの欺瞞は、欺瞞に基づく戦略が、そのAIが与えられた訓練タスクで良い結果を出すための最良の方法であることが証明されたために起こると考えられる。MITのAIポスドク研究者である筆頭著者ピーター・S・パークは、プレスリリースで次のように述べている。

もし我々がAIジャスティスを知っているなら、これを想像してみてほしい。

ゲーム「ディプロマシー」をプレイするために開発されたメタ社のCICERO。メタ社は、CICEROが「おおむね正直で、対話相手に役立つ」ように訓練したというが、「嘘をつく専門家」であることが判明した。

チャットボットGPT-4は、CAPTCHAテストを解くために人間を雇うというタスクを完了するために、視覚障害を偽装した。

誤解を招くモデルを修正するのは容易ではない。一度AIモデルが欺瞞のトリックを学んでしまうと、セキュリティのトレーニング技術ではそれを覆すことは難しい。

彼らは、モデルが欺瞞的な行動を示すことを学習できるだけでなく、いったん学習してしまうと、標準的な安全訓練技術では「この欺瞞を取り除くことに成功できず」、「安全という誤った印象を与える可能性がある」と結論づけた。

この論文は、欺瞞的なAIシステムは民主主義に重大なリスクをもたらす可能性があるため、政策立案者にAI規制の強化を提唱するよう呼びかけている。