Stable Diffusionが使用している(Midjourneyもといわれるが非公開)ことで知られる巨大トレーニングデータセットLAION-5Bには58億以上のデータが含まれます。そのデータをキャプションで検索でき、画像で表示してくれるサイトHaveibeentrainedは非常に便利です。多くの人が自分の作品や写真を検索し、見つけ次第オプトアウト(学習から除外)申請しています。私も利用しています。
昨年12月にスタンフォード大学のインターネット観測所がCSAMを特定しLAION-5Bは公開を停止しました。Haveibenntrained
も停止していましたが、今年2月に再開しました。
4月にリリースされたStable Diffusion3はオプトアウトを受け入れて多くのデータを削除したため、性能に影響が出ているといわれています。速度とアルファベットの生成は向上していますが、人体が破綻しやすいという批判があります。性的な画像の生成に向きません。
実際LAION-5Bの中の女性のデータが減っているのかどうか検索してみました。
beautiful womanで検索した結果です。404は削除されたデータです。
womanで検索しても、使える画像はほぼありません。
girlでも顔写真は出ません。
beautiful girlでは使えるデータが出ます。
日本語の女性で検索した結果、広告の写真が少し出ましたが一般女性の写真は出ません。
美女、美人でも検索してみましたが、日本人は出ず、フィリピンと中国の女性の顔写真が出ました(画像は省略)。
少女でも削除されて顔写真は出ません。
次に美少女で検索すると、使えるデータが出ました。
女性の顔写真は削除されていますが美少女は残っていますので、検索して自分がいたらオプトアウトしてください。
これでは女性が生成できない、と思われるかもしれません。
確かに性能が落ちているという批判はあります。
しかし例えば「笑う女性」(laughing woman)で検索すると顔写真が出てきます。
表情や動作、服装などのキャプションをつけると出てきます。
女性を全く生成できないということはありません。
顔だけは消せても、細かな条件をつけて検索するのは困難です。
思い当たる写真があるなら試してみてください。
オプトアウトのやり方も含め説明してくださっている漫画です。
(1/4)
— きゃんちゃんと私#NOMORE無断生成AI (@canchanandme) July 27, 2023
出来ました。
現状の生成AIの問題点を漫画にしてまとめました。 pic.twitter.com/YxnYJa0Mn2
ブラウザ拡張機能を使ってオプトアウトする方法を書いた記事。