【雑記】AI画像生成その後のその後 | 元ダビスタ好きの独り言ブログ

元ダビスタ好きの独り言ブログ

個人的な出来事、PC、ゲーム、その他、適当に書き連ねます

先週ほどではないですが、ちょこっとだけAI画像生成を弄ってますw

 

コンソールからインストールしたPython仮想環境下のStable Diffussion Web UIから始まって、Stablity Matrix管理下の、Stable Diffusion Web UI、Stable Diffusion Web UI、ComfyUI等を触って、最終的にFooocusにたどり着きましたw

 

Fooocusは、Stable Diffusion Web UI等でお馴染みのcontrolnetの作者のlllyasviel氏が作成(バージョン管理等)されており、Stable Diffusion Web UI Forgeも、実はlllyasviel氏が提供したプラットフォームだったりします。

 

で、この方がStable DiffusionにおいてXL用のプラットフォームとして提供されているのが「Fooocus」になるのかな?

 

XLというのは、これまでのSD(=Stable Diffusion、面倒なので、SDと表記しますw)において、画質的に低めのものを生成する環境であったものを、高画質・高精細画質の画像を作成出来るようにした仕組みになります。

※従来の低画質の画像も、拡張機能を使って、高画質化、高解像度化は出来ますが、その辺の作業を省ける点で、デフォルトでXLに対応しているFooocusは使いやすいと言うか、使い勝手が良いと言う事になるわけですね。

 

SD自体はバージョン1.5以降XLに対応しているらしいんですが、WebUIなどでは、色々設定や環境構築等が若干判りにくかったりするので、それらを省いてくれるという意味で「Fooocus」はとても使いやすいプラットフォームだと思いました。

※その代わりと言ってはあれですが、動作要件は結講厳しいかも知れません。少なくともVRAM12GBは必要なので、RTX3060以上が動作要件になりますね。

 

ただ、SDXL対応のモデルファイル(AI画像生成の要となる、人工知能ファイル?)は、まだ然程種類も多くない印象で(どちらかと言うと、リアリスティックな写真系の画像か、3DCG系のものが多いですかね)、生成画像もどちらかと言うと似たり依ったりのものが多い印象です(この辺は、生成する画像自体も同じ傾向にあるので、モデルに依存してるわけでもないとはおもいますけども)。

 

前記事で参考に上げていた「葬送のフリーレン」の「フェルン」的な画像は、XLではなくてSD(通常画質 512x768だったかな)のものだったんですが、ここ数日はFooocusでXL画像を作ることに嵌まってるというか、どちらかと言うとプロンプト(入力テキスト)の適用範囲を色々試してると言った感じですw

 

参考までに、「DynaVision XL - All-in-one stylized~」と言うモデルファイルを「Fooocus」で設定して作成した画像の例を挙げてみますが・・・、

※モデルファイルは、civitai.comで他にも見つけられます。

 

入力プロンプトに 「1girl,blonde hair,short hair」(ブロンドのショートヘアの一人の少女)と入れてGenerate(画像生成)して生成された絵がこんな感じです。髪色指定しないと、茶髪になったと記憶してます😅

 

 

顔や服装は、乱数のシード値を固定すれば、ポーズなどは少し変わるとは思いますが、同じような顔の画像を生成出来るとは思います。

次に、上のプロンプトに、「looking to viewer,smile,waving」(閲覧者を見る、笑顔、手を振る)を入れると。

なぜか背景の人まで笑顔ですがw

 

シード値を固定してないので、若干雰囲気は変わりますね。さらに「blonde hair」を「red hair」に変更すると。

 

「アニー?」

 

さらにここから発展させようとして、「(full body)」(全身)....(単語を括弧()で囲うと、その単語が強調され、確実に画像に反映されるんですが、結講うまく効いてくれませんw)を追加し、さらに背景を着ているワンピースと同じ花だらけに(「flower background」)指定します。

 

 

なぜか、そばかすが追加されましたが、まぁAI画像生成なんてこんなものですw

何度か生成し直せば、もう少し良い絵は出来るとは思いますw

※AI画像生成で、結講難題なのが、手先だったりします。指が1本すくなかったり、1本おおかったり、上の絵も、右手の指がおかしいように見えますが、小さくて判らないですねw

一応Negative Prompt(否定プロンプト=このプロンプト欄に入力された単語等に関連するものは、生成する画像に反映させないように指示する機能)で、badhandv4等を入れており、効いてはいるみたいなので、WebUIなどよりは比較的生成結果は優秀だと思います。

 

最終的に金髪に戻して、ひまわり(sun flower)だらけにしてみたり。

※ワンピースの柄は意図して「ひまわり」にはしてないんですけど、何をどうやっても「ひまわり」になってしまいましたw

 

とまぁ、こんな感じで、高画質とはおおよそ関係無いですが…………簡単に画像生成できますw

 

1枚絵だけ生成するなら、Fooocusは最適だと思いますが、アニメとか動画を作りたいとなると、WebUIやComfyUIの環境じゃないと出来ないかな?という感じなので、TPOに合わせて使い分けるというのが良いのかな?と思ったり思わなかったりw

 

また、そのうち「葬送のフリーレン」関連の画像(フリーレン、フェルン、シュタルク込みの1枚絵)でも作ってみようとは思いますけど、果たしてw