データセットの検索方法・補足 | 牧村しのぶのブログ

牧村しのぶのブログ

漫画家牧村しのぶのブログです。
新刊、配信情報、創作関連の記事を投稿しています。

前の記事で巨大データセットLAION-5Bを検索する方法と、オプトアウト(学習から除外)申請する方法を書きました。

 

説明が足りなかったので補足します。

Haveibeentrained.comは2022年12月からオプトアウト機能が

利用できるようになり多くのアーティストが申請してきました。Stability.AIが協力し、Stable Diffusion v3からオプトアウトが適用されています。それ以前のSDXL等のモデルからは除外されません。

 

オプトアウト申請しても適用されるまでに時間がかかります。しかし画像を削除すれば直ちに使えなくなります。早く消したい人は無断転載も含めて可能な限り削除してください。そして新たにスクレイピング対策をしている場で公開するのが早道です。

削除してもらえない画像はオプトアウトする以外ありません。

 

検索も以前は日本語に充分対応しておらず、英語でやるしかありませんでした。昨年日本語検索機能が改善され、日本語でかなり検索できるようになっています。しかし日本語と英語他の言語では検索結果が違います。海外で活動してメディアに出ている人はそこの言語で出てきます。まず日本語と英語で検索するのが基本です。その上で自分と関りのある国の言語でも再検索してください。マリオとMarioでは出てくる画像が違います。

 

同じ日本語検索でも、言葉を変えると違う画像が出てきます。

「電話猫」、「仕事猫」、「現場猫」、「くまみね」(敬称略)で違う画像が出てきます。

思いつく限りの言葉で徹底的に検索してください。

猫ミームは日本で流行っているだけなので、英語で検索する必要はありません。英語で出るかどうかは場合によります。そもそも英訳がない言葉は出ません。

 

最後に。LAION-5B(CSAM等を削除してRe-LAION-5Bとして再公開)は2022年3月にリリースされており、それ以降のデータは入っていません。2023年以降の新しい作品は検索する必要がありません。

 

まずは登録して検索してみてください。