米国のリーチサイトDanbooruに日本のpixivの大量のコンテンツが投稿され、そこからスクレイピングされたデータセットDanbooru2022がcc0(著作権放棄)で公開されていることを、昨日の記事で書きました。
実際に一部DLして中身を確認しました。
予想通りpixivからDanbooru経由で大量に取られていました。
解像度は120dpi、サイズはまちまちですが上げたサンプルを100%に戻した大きさです。
データセットの画像(30%、72dpiに縮小)
テキスト
学習元pixiv(フラギル「こよりちゃん」同上)
データセットの画像(30%、72dpi)
学習元PixivFanbox(とまぎり「お昼寝?クレーちゃん」同上)
pixiv以外にXの投稿もありました。
データセットの画像(30%、72dpi)
テキスト
学習元X(埼玉さん@AntiTankRomeo 「白上フブキ」同上)
データセットの画像(30%、72dpi)
学習元DeviantArt→Patreon(Shexyo「 Hinata 」AI 同上)
見てわかる通り、画像とテキストの組み合わせです。元データの画像は120dpi、サイズは100%に戻した大きさです。
これらはごく一部に過ぎず、大量のデータをZipファイルに圧縮してcc0で公開しています。
米国のAI画像は著作権がありませんが、
日本のイラストレーターは著作権を放棄していないはずです。