米国のリーチサイトDanbooruにpixiv他のコンテンツが大量に投稿されています。日本ではリーチサイトにも有罪の判例があるため海賊版といわれますが、米国のサイトですから放置されています。
さらにDanbooruの投稿からスクレイピングしたデータセットが公開され、Danbooru2017~2024まで更新されています。うちDanbooru2022 はcc0(著作権放棄)で公開されています。
それについては2日続けて記事を書きました。
データセットからサイズの小さいZipファイルをDLして中を確認しました。pixiv、X(Twitter)、Patreon他の投稿をリサイズした画像とTXTのペアです。著作者名、URLは記載されていません。
データセットの作者animeloverがどういう人物かは不明です。
データセットの中を検索できないため、画像検索で学習元を特定しました。自分の作品が入っているか大量のファイルを見て確認するのは恐らく個人では無理でしょう。
スクレイピングされたDanbooruはアーティスト名等で検索できます。ここに入っていなければデータセットにも入っていないと考えられます。私もpixivやpinterestで使ったユーザーネームとペンネームで検索しましたが、幸い見つかりませんでした。恐らくデータセットにも入っていないと思われます。
気になる方はDanbooruで検索してください。
まずサイトにアクセスします。
人気のある先生方の作品が大量に見つかります。
作品が見つからなければ表示されません。
以前SpawningでLAION-5Bからオプトアウトする方法をご紹介しましたが、今のところ協力している開発企業はStabilityAIだけです。Danbooruに入れられたくなければ投稿作品を削除するか生成を阻害する画像保護ツールを使うしかありません。
すでに入れられている場合はDMCA申請できます。