スタンフォード大学インターネット監視団がLAION-5Bに含まれるCSAMを検証した報告書はこちらから原文をDLできます。
日本語の見出しだけ見た人は、58億5000万に1008しかないから安全だ、日本ではモデルのいない創作物は児童ポルノではない、とコメントしています。しかし原文を読めばわかるように、昨年9月に調査を始めた時点で既にスクレイピングから時間がたっており、削除されている素材があったと報告されています。調査のためにPhotoDNAに送られた素材のURLの約30%がデッドリンクでした。また検出に使用したハッシュセット、コンテンツ分類の精度の限界等により、実際よりかなり過小な数字になっているということです。
また拡散モデルは素材の顔を復元する能力があり、特定の児童のイメージが繰り返し生成されるリスクがあります。
LoRAを使えば特定の児童を連続して生成することもできます。
それは性的虐待の再被害化になります。日本の基準で考えても、特定のモデルへの加害になるリスクがあります。
報告の数字が少ないから無視すべきだということはできません。
日本ではモデルの特定できない創作物は児童ポルノではない、という的外れなコメントもあります。わかっていない人がいるようですが、LAION-5Bはドイツの非営利団体の製作したものです。それを学習に使用したStabLe Diffusionは英国企業の製品です。Midjourneyは米国製です。日本の法律は関係ありません。
日本で合法だから削除するなと要求することはできません。
また今回の調査ではCSAMの基準が明確に記されてはいませんが、検出にMicrosoftのPhotoDNAを使用していることから米国の基準で判定されていると考えられます(米国だけでなくドイツのLAION、カナダの児童保護団体C3Pも協力しています)。
PhotoDNAは過去米国でNCMECに報告されたデータ等を用いてCSAMを判定するツールです。
報告書から検出方法の部分を邦訳解説した記事です。
詳しくは原文をお読みください。
報告書は日本の法律とは関係ありません。