2022年9月に構築されたHaveIbeenTrainedの画像、キャプションによる検索機能は、LAION-5Bデータセットのみを検索対象としていました。
アーティストはこれを使って自作がすでに使われているかどうか調べることができるようになり、12月にオプトアウト機能が追加されました。ここでオプトアウト要請するとStableDiffusion3のトレーニングから除外されると約束され、実際オプトアウト要請は尊重されてデータは削除されました。
後から開発されたSpawningの拡張機能もHaveIbeenTrainedを使用しますが、これはすでにLAION-5Bに入っているかどうかに関わらずあらゆるメディアファイルのオプトアウト権を予約登録できるものです。アップしたばかりの画像も予約登録できます。
ホームページ丸ごとドメインオプトアウト要請すれば将来の投稿も全てオプトアウト予約することができます。やっておくに越したことはありません。
この点について私も理解が足りず説明不足でした。
Spawningのブログに説明がありますのでご参照ください。
もう一点、HaveIbeenTrainedの画像検索機能、重複検出機能が削除された理由も公開されています。データのレビューが終わるまで意図的なCSAMの検索を困難にするためです。その代わりに拡張機能を使って全てのメディアファイルをオプトアウトできるようになっています。