私は23年にpixivを退会していますので今はそこから画像を取られる心配はありませんが、Danbooruという米国のリーチサイトにpixivのコンテンツが大量に投稿されています。画像が上げられているのではなく、URLが貼り付けられているだけです。
リーチサイトは日本では実質的に海賊版として使われているため20年10月から規制されていますが、米国には規制がないことを利用しています。
その上cc0(著作権放棄)のデータセットとして公開されているのには驚きました。日本の著作権法の権利制限規定のような制約もなく自由に利用できます。
コンテンツの著作者は著作権を放棄していないはずです。
それを第三者が無断で外国のリーチサイトに投稿し、著作権放棄と偽って公開するのはきわめて悪質です。こんなことがまかり通るようではcc0のデータセットを信用することができません。
こちらが見つけた方の投稿です。
HunggingFace に Danbooru から丸ごとスクレイピングしたデータセットがCC-0で公開されてるのを見つけた時の顔をしている。
— ぼうくん | VoQn 🎨 (@VoQn) October 29, 2023
ホント、「パブリックドメインだけから学習した」は半年以上前から信用できない状態になっておったんだな。https://t.co/9Rhz9DasWM
確認すると今も相変わらず利用できる状態になっていました。
現在もanimelover/danbooru2022はcc0で公開されています。cc0とは作品の著作権を放棄し世界中のパブリック・ドメインに捧げるということです。https://t.co/1IZgoXfOVr
— yatomibuncho (@buncho108) May 23, 2024
以前ご紹介したSpawningは昨年5月30日に最初のオプトアウト用レジストリ(禁止リスト)を送っています。それ以前に製作されたデータセットには適用されません。遡及して適用することはできないそうです。HuggingFaceも協力していますが、それ以前のDanbooru2022にはオプトアウトは適用されていません。今後使われたくない人は画像を削除するしかありません。DanbooruにURLが入っていても、削除されればDLできなくなります。
下記のページにデータセットの説明があります。私の能力を超えているので詳しく説明できませんが2005年5月24日から2017年12月31日までのDanbooruをカバーするDanbooru2017(画像+タグ)からリリースされ、その後更新され続けていることがわかります。MITライセンスが普通のようで、cc0は例の2022以外見つけられませんでした。MITは製作者の著作権表記は必要ですが商用も含め自由に使えるライセンスです。しかも画像入りでは学習元が削除できないので悪質です。
すでに2年近く安心して投稿できない状態が続いています。
解放されて自由になりたい気持ちを2枚組のイラストにしてみました。鉄条網で2つの世界が分断されています。
画像は1枚めだけです。続きはスクレイピング対策のできているXfolioに投稿しました。
よろしければご笑覧ください。