AI生成人間が、より簡単に作れるようになり、犯罪の温床になりそうで怖いね。

いつもありがとうございます。

ハッピーダイエットライフの船田です。

今までもAIの危険性についていろいろ書いてきましたが、画像生成AIがさらに進化し、ヤバい状態になりつつあります。

1枚の写真から、ちょこちょこっと設定を変えると、あらゆる状態の写真が生成できるようです。

しかも、写真だけではなく、音声も同じように生成できるそうです。もはや、証拠写真とか、証拠録音とか、関係なくなりそうだね。

記事を書いた人も注意を呼び掛けているけど、本当にこれは犯罪の温床になりそうで怖い。

↓↓↓

画像1枚で“似た顔”　Midjourneyの新機能「Creative Reference」

　使い方は、MidjourneyのDiscordに画像をアップロードして、「Creative reference」のタグ（cref）をつけてプロンプトを入力するだけ。CW 0〜100までのパラメーターがあり、0だと顔だけが共通になり、あとは数字が増えるほど元の画像の要素が強くなっていきます。実写系のMidjourney、アニメ系に強いNijijourneyのどちらでも使用可能です。

　まずは、過去にMidjourney v6で作成した画像で試してみましょう。完全にそっくりとはいきませんが、かなり似た顔や服装が出てきます。

　プロンプトを少し修正して、「Running」とすると走っている様子が生成されました。こちらも完全にそっくりとは言えませんが、それなりに似た顔かつ、似た服装になっています。

　では、影響度を落として、「--cw 0」で指定して顔だけが影響するように、桜の下にいるといプロンプトを加えてみます。

画像生成AIで同じキャラクターが簡単に作れるようになってきた（アスキー） - Yahoo!ニュースMidjourneyに1枚の画像から似た画像を作れる新機能「Creative Reference」が追加。ベースになった技術「IP-Adapter」も発展を遂げ、いわゆる「LoRA」も作りやすくなっ

news.yahoo.co.jp

画像生成AIサービスの「Midjourney」に3月12日、新機能「Creative Reference」が追加。1枚の画像から特徴を引き継いだ画像を生成できるようになり、同じキャラクターに別のポーズをとらせるなど様々な画像を作れるようになりました。

これまで画像生成AI「Stable Diffusion」などで同じキャラクターの画像を作るには「LoRA」という追加学習をするのが一般的でしたが、それが必要ないため、キャラクターの再現が劇的に簡単になってきました。　

画像1枚で“似た顔”　Midjourneyの新機能「Creative Reference」

　使い方は、MidjourneyのDiscordに画像をアップロードして、「Creative reference」のタグ（cref）をつけてプロンプトを入力するだけ。

CW 0～100までのパラメーターがあり、0だと顔だけが共通になり、あとは数字が増えるほど元の画像の要素が強くなっていきます。実写系のMidjourney、アニメ系に強いNijijourneyのどちらでも使用可能です。　

　まずは、過去にMidjourney v6で作成した画像で試してみましょう。完全にそっくりとはいきませんが、かなり似た顔や服装が出てきます。　

では、影響度を落として、「--cw 0」で指定して顔だけが影響するように、桜の下にいるといプロンプトを加えてみます。

　　この応用方法は広く、この桜で生み出した画像の画像を、他の白黒画像のプロンプトと組み合わせたりすることもで、同じ人物を2次元的な表現にすることできます。

　　実在の人物でも似るのか筆者の写真で試してみましたが、雰囲気は引き継いでいるものの、あんまり似ていない気がします。他の画像でも試しましたが、Midjourneyで生成した画像の方が似る傾向がある印象があるため、フェイク対策で意図的にそっくりにならないような対策が入っているのかもしれません。　　

試しにドナルド・トランプ氏の写真を入力したところ、フィルターで弾かれたため、著名人の画像と認識された場合には生成できないように対策されているようです。　

　Nijijourneyで同じ画像を元に同じプロンプトで出してみると、得意なアニメ風の絵柄で出てきました。　

　さらに面白いこともできます。キャラクターシートを参照させることで、そのキャラクターのバリエーションを生成できるのです。以前作例として、VRoidをStable Diffusionに変換した3面図が簡単にできることをご紹介しましたが、それを指定することで、そのキャラクターに近い画像のバリエーションを容易に生み出せます。（※参考：画像生成AIが爆速で進化した2023年をまとめて振り返る）　

　参照元の画像をCreative Referenceに設定することで、様々な環境にいる一人のキャラクターを生み出すことができます。ただ、画像生成AIの弱点でもあるランダム性が交じるので、服の装飾といったディティールを固定することは難しいのですが。　

　現状、MidjourneyにはStable Diffusionのi2i（Image-to-Image）や拡張機能「ControlNet」にあたる機能がないので、ポーズや表情の指定をはっきりコントロールすることは難しいのですが、それでも一貫性のある人物やキャラクターの画像を作れる機能は重宝されるでしょう。　

Stable Diffusion「ControlNet」IP-Adapterがベースか　Creative Referenceのベースは、ControlNetの新技術。昨年10月にテンセントが開発・公開した「IP-Adapter」の機能を独自拡張したものではないかと推測されます。　

　もともとControlNetは画像をプロンプトとして利用可能にする技術ですが、IP-Adapterは、さらにタグ解析もして、その画像と解析後のテキストの両方をセットにして画像生成をするLatent（潜在）空間に送り込み、出力する画像の結果に影響を与えるという方法です。元画像全体の全体的な雰囲気に影響を与えられる点が画期的でした。

　　「Stable Diffusion WebUI」や「ComfyUI」といったStable Diffusionのユーザーインターフェースには、発表から早い段階でControlNetの機能の1つとして実装されました。　　その後、顔のみに影響を与えるモデル、SDXL用のバージョンも登場して、広く使われています。WebUIでは使用しているチェックポイントのモデルの影響を大きく受けるため期待するほどそっくりはなってくれない傾向がありますが、かなり雰囲気は似てくれます。　

　一方で、ComfyUIでは、AnimateDiffで動画を作るときに、顔や服装に一貫性を保つためのテクニックとして使わることも多いですね。　 *AIアニメ: ControlNet+IPAdapterテスト #AnimateDiff#ComfyUI#aiartpic.twitter.com/ffGZbCsC9x 　 ― Baku (@bk_sakurai) October 5, 2023 　

画像生成AIサービスの「NovelAI」も、IP-Adapterとほぼ同様の機能を追加しています。　　2月に新機能として実装された「バイブストランスファー」と呼ばれる機能で、ベースの画像に合わせて似た雰囲気の画像を生み出してくれるというものです。いい加減な画像を入れても、プロンプトとセットで何かの絵を生み出してくれるのは便利です。　　現状、キャラだけに似せるといったことはできませんが、NovelAIにはi2iの機能があるため、特定のポーズをしたキャラクターを他の画風にするといったことが簡単にできます。　

　さらにNovelAIはマスクも使えるので、顔だけ囲って生成することもできます。画像が持っているニュアンスを適当に読み込んでくれるので便利です。プロンプト解析は入っていないので同じ系統のパターンを出しづらいという弱点はありますが、違った種類の画像が出せます。　

音声や動画からも“同じ人物”を生成できる時代へ　

Stable Diffusionは追加学習データの「LoRA」を使って似たキャラクターを作れる点が強みの一つですが、その作成環境も整ってきており、以前よりも作りやすくなってきています。

　　LoRAの作成には「Kohya_ss」という環境が普及していますが、それを利用するためのガイドも多く書かれ、設定用のJSONファイルも様々なものが配布されています。　

　学習元となる複数枚の画像にタグ付けをしたり、その修正をしたりする事前作業も、Stable Diffusion WebUI用の拡張機能の「Tagger」や「Dataset Tag Editor」の登場で、かなり容易になりました。10枚程度の画像にタグを付けて設定すれば、10分程度で独自LoRAを作成することができます。

　　3月23日に渋谷で開かれた「東京AI祭」のパネルディスカッションでは、Midjourneyと共同でNijijourneyを開発しているSpellbrush Japanのジン・ヤンファ（Jin Yanghua）氏が、Creative Reference機能について、やはり高いニーズがあったことに触れ、「時間を掛けて、一貫性を持つ方法を開発した」と話す場面がありました。　

　ジン・ヤンファ氏は「キャラクターLoRAを作成する場合、GPUが必要になるので、プロダクトとしてMidjourneyと合わないので、もっと簡単な入力でコントロールできるように」と狙いを語り、「1枚のイラストではキャラの細かいところが反応しないとか、今のCreative Referenceは理想ではない。これからもっと改良していく」と話しました。

　　同じくStable Diffusionを開発しているStability AIのリードエンジニアのメン・リー（Meng Lee）氏は、「一貫性はLoRAが有名だが、今後もキャラ生成のために使い続けられる」と話しました。「ひとつのLoRAのファインチューニングで、いろいろな条件でも一貫性を保つ方法が出てくるだろう。テキストと画像だけでなく、オーディオやビデオから、ずっと同じ人を出すといった手法が出てくる」と、可能性を指摘しています。

　　生成AIの弱点は、そのランダム性による生成過程の弱点から、キャラクターの首尾一貫性を維持できないところにありました。しかし、画像生成AI技術の発展によって、こうした問題も乗り越えられつつあります。同じキャラクターを連続的に生成したいというニーズは高く、今後も広くその方法はまだまだ発展が進むと考えられます。　

　一方で、課題もあります。現実に存在する人を使ったフェイク画像の作成も容易になっているとも言えます。Midjourneyのような画像生成のサービス事業者にはより対策が求められるでしょうし、利用者も他者の権利を侵害していないか注意をしつつ利用することが必要です。　

筆者紹介：新清士（しんきよし） 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』（NHK出版新書）がある。　

文● 新清士　編集●ASCII

AI生成人間が、より簡単に作れるようになり、犯罪の温床になりそうで怖いね。

画像1枚で“似た顔” Midjourneyの新機能「Creative Reference」

画像1枚で“似た顔”　Midjourneyの新機能「Creative Reference」