データセットにCSAMがあるとまずい理由 | 牧村しのぶのブログ

牧村しのぶのブログ

漫画家牧村しのぶのブログです。
新刊、配信情報、創作関連の記事を投稿しています。
Xもご覧ください。https://twitter.com/buncho108

生成AI (StabLe Diffusionに代表される拡散モデル)には人間にない能力があります。

 

1.特定の素材を記憶して再現する能力がある。

 

2.特定の素材を追加学習して再現できる。

 

3.全ての女性の写真をヌードにできる。

 

しかもスピードが速く大量生産できます。

 

少し説明を補足します。

 

1.特定の素材を記憶して再現する能力がある。

生成AIの中でも性能が高く人気のある拡散モデルは、特定の素材を記憶して再現する能力があります。確率は高くありませんが、一般人の顔がほぼそのまま出てしまう例も報告されています。

特に同一人物の素材が多数含まれていると過学習となり、記憶されて再現される確率が上がります。ゆえに困る場合もあります。

CSAMを使って繰り返し生成することで特定の被害者のイメージが再生産され性的虐待の再被害化が続きます。
CSAMだけでなく医療写真や個人の肖像写真などプライバシーに触れる素材は拡散モデルに使うべきではないと研究者が勧告しています。

 

2.特定の素材を追加学習して狙って出せる。

1とは違いLoRAを使って特定の人物の肖像を意図的に追加学習させれば、その人物のイメージで連続して複数生成できます。

女優やモデル、アニメのキャラクター、政治家の写真等を使って

作る人もおり、海外のサイトに投稿されて被害者が削除要請しても応じてもらえない場合もあります。好みの顔でポルノ、CSAMを狙って作ることもできます。著作権、肖像権、パブリシティ権に関わる問題です。写真だけでなく絵も被害に遭っています。

 

3.全ての女性の写真をヌードにできる。

生成AIを使って女性の写真をヌード化するサービスが内外で多数作られています。発見された34のサイトを調査した結果利用者は一か月に2400万人に上るという記事もあります。子供でも写真を上げるだけで使えるため、加害者が低年齢化しています。

自動的に女体化するため被害者は女性、女児です。

フェイクポルノは昔から合成して作られていましたが、飛躍的に質が上がり誰でも量産できるようになりました。ネットに写真を上げた、あるいは無断で上げられた、無断転載された女性は誰でも被害者になる危険性があります。国内の被害者のインタビューをご参照ください。

 

生成AIのデータセットLAION-5BにCSAMが含まれていることが確認され、問題になっています。スタンフォード大学が高リスクのコンテンツの一部を調査しただけで3000以上の疑わしい素材が見つかり、外部機関で1008件がCSAMと確認され、削除されました。調査は一部を対象としたもので全体は未調査のため実際ははるかに多いと推定され、この報告を受けてLAIONはデータセットを非公開としました。

 

1008は少ないと誤解し、データセットにCSAMがあるとなぜ問題なのかわからない人がいます。そもそも生成AIはデータセットにCSAMやポルノがなければ生成できません。不適切な素材を含み、適切な安全対策の取られていないStableDiffusion1.5が最も危険だとされ、スタンフォード大学の調査チームは使用を中止すべきだと勧告しています。

原文はこちらからDLできます。

 

漫画家やイラストレーターもポルノを描き影響も受けているので人間よりAIに描かせた方が安全だという人もいます。

確かに成人向けを作る人、享受する人もいます。しかし上述した通り生成AIの再現能力、生産力には及びません。そして法整備もできていないため脱法利用され国内でも逮捕者が出ています。

 

国勢調査では漫画家もイラストレーターも「彫刻家,画家,工芸美術家 」に含まれます。全体で40万人を下回り、人数は横ばいです。アマチュアを含めるともう少し多くなるとしても、2400万人には遠く及びません。ポルノを製作している人はむしろ商業では少数です。イラストレーターの59.2%が女性という調査もあります。女性が男性向けのポルノを好むことはまずありません。

他方生成AIユーザー対象のアンケートで、7割以上が男性、4割近くがセンシティブ(R18)を作っていると回答しています。AIを使う人間の傾向を見れば、AIの方が安全とはいえません。