LAION-5Bの中身(画像はお見せできませんのでテキストだけ) | 牧村しのぶのブログ

牧村しのぶのブログ

漫画家牧村しのぶのブログです。
新刊、配信情報、創作関連の記事を投稿しています。

トレーニングデータセットLAION-5BStable Diffusion他多くの画像生成モデルに使用されていることで知られています。研究用に作られた製品を商用利用したため、NSFWコンテンツが生成され、CSAMや医療画像等違法性のあるデータが見つかり、一部を削除してRe-LAION 5Bとして再公開されました。

2022年に海外で問題になり、オプトアウト要請、データの削除が始まっていました。私はSNSを通してその問題を知りました。

 

Haveibeentrained?というサイトで中のデータをキャプションで検索し、データを画像で確認することができます。それもSNSで知りました。実際に何があるのか見てみないと判断できないため、思いつく検索ワードで中を確認しました。しかし思ったより露出度の高いグロテスクな画像が多く、途中で気分が悪くなり、充分に検証することはできませんでした。多くの検索ワードで見ましたが、ほとんど途中で見るのをやめて閉じてしまいました。

 

2023年から24年にかけて確認できたページの一部はスクリーンショットを取りました。

画像はお見せできるものではないため、画像についていたテキストだけいくつかご紹介します。テキストの何倍も何ページも写真がありました。個人情報を保護するためテキストの一部を塗り潰しています。ご了承ください。

 

海賊版

医療写真(実際は小児病棟や産科の写真が多数ありました)

未成年のポルノ(男女)

盗撮

殺人事件被害者(顔のわかる写真)

醜いアジア人(日本人を含みます)

他に成人のポルノ、ヌード写真、写真集も多数ありました。

現在はポルノはかなり削除されています。しかしヌーディストやソフトなヌードは残っています。

 

表現の自由以前に、許諾なく顔写真や全裸の写真を使われることに抵抗のある人もいると思います。著作権法では写真の撮影者の著作権は保護されますが、被写体の肖像権は守れません。

自分の写真が入っていることも知らない人が大勢います。

周知して削除、オプトアウトを進めるべきだと思います。

 

それ以前にネットに誰がアップしたかもわからない写真を無許諾で取得し、学習に利用すべきではないと思います。

パブリックドメイン、許諾済みデータを使用し権利問題を最小限に抑えたデータセット、画像生成モデルも海外、国内で公開されています。選択肢はあります。