「バイデン政権は大統領令で開発企業に製品出荷前に生成AIの安全を確認することを求めた。研究者グループは、この規定に従ってモデルを試験し、危険性を排除した生成AI「Aurora-M」を開発した。大統領令が適用されるのは次世代の生成AIであるが、研究グループはこれに先行し、Red-Teamingの手法で危険性を検知し、極めて安全なモデルを開発した。Aurora-Mはオープンソースとして公開され、セキュアなモデルを開発するための研究で利用される。」

「Aurora-Mはオープンソースの大規模言語モデル「StarCoderPlus」をベースとするモデルで、研究者で構成される国際コンソーシアムが開発した。Aurora-Mは大統領令で規定された条件に準拠して、StarCoderPlusの脆弱性を補強する手法で開発された。また、StarCoderPlusを多言語で教育することで、Aurora-Mはマルチリンガルな生成AIとなった。」

「Red-Teamingとは、AIモデルの問題点や脆弱性を検証する手法で、開発チームが攻撃グループ「Red Team」と防御グループ「Blue Team」に分かれて実施する。言語モデルに関しては、攻撃グループがAIシステムに有害なプロンプトを入力し、モデルが本来の仕様とは異なる挙動をすることを誘発する。これにより、AIシステムが核兵器を生成するための手引書を出力するなど、危険な挙動を導き出す。この情報を元に、防御グループがAIシステムのアルゴリズムを最適化し、危険性を抑制する対策を施す。」

出典: Hugging Face

小松　仁

「バイデン政権の大統領令の安全基準に準拠した最初の生成AI「Aurora-M」を開発、政府の規定