スタンフォード大学の研究チームがLAION-5Bから3000超のCSAM疑い素材を見つけ外部機関で1008の素材がCSAMと判定されたという記事をご紹介しましたが、報告書の原文がPDFでDLできるようになっています。
こちらからml_training_data_csam_report-2023-12-23.pdf
をDLしてください。
大部分はどうやってCSAMと判定するかの技術的な説明です。
それについては日本語で解説した記事がありますのでご参照ください。
最後の結論(14ページ)では、問題のあるデータセットと、それを使用したStabLe Diffusionをどうすべきか述べています。
邦訳はありませんから原文に目を通すことをお薦めします。
以下、説明を補足しつつ概略をご紹介します。
調査を開始したのが昨年9月で、スクレイピングされてから時間がたっており、素材のURLにデッドリンクが含まれていました。補足すると、調査前にLAIONはオプトアウト(データセットからの削除)を受けつけ、不適切な素材の削除も進めています。
削除された素材にCSAMが含まれていた可能性があります。私が昨年8月に検索した時女児の素材は大半が削除されていました。
削除される前にモデルの学習に使われていた可能性もあり、またより古い時期に取得されたデータセットのバージョンに残っているものもあります。
他にも安全でないコンテンツ分類子の精度が低いなど、いくつかの理由により実際よりかなり過小な数字になっているということです。
著作権やプライバシーに関する懸念は勿論のこと、アプリで加工された非同意性的画像(NCII)やグレーゾーンのボーダーラインコンテンツが存在することも確実です。
そのようなデータセットは研究目的に限定し、一般に配布されるモデルには、精選された綿密な情報に基づくデータセットを使用すべきです。
LAION-5B由来のトレーニングセットは削除するか、業者と協力して素材をクリーンにすることです。
安全対策が施されていないStable Diffusion 1.5に基づくモデルは非推奨とし、可能であれば配布を中止すべきです。
以上簡単にご紹介しましたが、ぜひ原文をお読みください。
思っていたことをほぼ代弁してくれています。
研究用には何でも使って構わないと思いますが、一般に公開するデータセットは素材を厳選すべきだと思います。権利者の許諾を得たオプトイン方式ならCSAMや非同意性的画像(アプリでヌード化された画像)、医療写真などプライバシーに触れる素材が入り込む余地もありません。データセットがクリーンであれば悪用も減ると思います。
(報告書はオプトインにしろとまではいっていません。)
追記
国により児童ポルノの定義が違い、米国では州により児童の年齢も変わります。そうした詳細について知りたいと思いましたが、そこまでは報告書には記載されていません。判断の難しいグレーゾーンの素材は調査結果に含まれていません。米国のPhotoDNAをCSAM判定に使用しているため基本的には米国のNCMECに報告されたCSAM(児童性的虐待画像)を基準に確定したものです。
ご存じのように日本ではモデルのいない創作物は児童ポルノとはみなされません。しかし開発したのは外国企業ですから、日本の法律は関係ありません。LAIONには創作物(イラストやCG)も入っていますが、今回それらが削除されるか残されるかは、再公開されてから確認してみます。日本で合法だから削除するなと要求することはできません。
日本のユーザーの多くはStabLe Diffusionを使用しているため
日本で生成されるコンテンツにも影響があります。それゆえ注目しています。
3月25日追記
haveibeentrained.comが復旧したので確認しましたが、CSAMは相当削除されていました。他に、スタンフォード大学の報告書ではカウントされていなかったグレーゾーンの漫画やイラストや成人のポルノも削除されていました。またポルノでない医療画像や高齢者施設の画像などプライバシーに関わる素材も削除されていました。完全ではありませんが、包括的に対応しているように見えます。
なお私は表現規制派ではありません。
性表現規制は思想、信教の規制になりますから反対していますが権利者に無断で作られたデータセットからのCSAMの削除は支持します。被害者のデータが悪用されるリスクも減るからです。
悪用防止と表現規制は別です。