前回、Stable diffusionの他にも画像生成AIソフトを使ってみたと書きました。それ以外にも今はもうたくさんありますよね。
これからのことを考えるとやはり使えた方が良いと思うので、もう少し計画的に学習しようと思います。
①自分が使用する基本モデルを決める(checkpoiint と LoRA)
②人物の構成要素をイメージ通りに出すためのプロンプトを見つける
③人物の体勢をイメージ通りに出すためのプロンプトを見つける
④サンプリング方法、サンプリングステップ数、CFGスケールの最適値を見つける
⑤アップスケーラーを使って高解像度画像を出す
①自分が使用する基本モデルを決める(checkpoiint と LoRA)
自分が使う基本モデルを決めようと思います。あれこれと色々なモデルを使うよりひとつに絞る方がそのモデルの特徴をつかみやすいかと思うからです。
【使用モデル】
oiaillustrator (checkpoint)
(理由)
・実写よりイラスト系をつくりたいから
・SDのモデルにする。ビデオボードに制限があるためSDXLでは上手く生成されないことがあるから。
※このモデルはそのまま出すと水彩画っぽい感じになるので、線画っぽさが出る LoRA も使用します。
【最適出力サイズ】
出力サイズにも最適なものがあるようです。今まであまり気にしていませんでした。civitaiのページに載っています。
このモデルの最適出力サイズ(pixel)
・768×512
・512×768
・512×512
・512×N、N×512(Nは任意の数字)
幅か高さを512にすると良い結果が得られるとあります。
②人物の構成要素をイメージ通りに出すためのプロンプトを見つける
下記の要素がキャラクターのメイン要素になるかと思います。
・性別
・年代
・体型
・服装
・髪型
【性別に関して】
これまでやっていて女性の方が生成しやすいということがわかりました。
例えば男性と指示をしているのに女性になってしまうことは多々ありましたが、その逆はありません。
ネットで調べてみるとどうもそのような傾向があるらしく、そのような場合はネガティブプロンプトに「girl」「long hair」と入れると良いともありました。
【服の色に関して】
こちらは一度出した画像を使用して色を変える機能があるので、その機能の使い方を覚えます。
③人物の体勢をイメージ通りに出すためのプロンプトを見つける
これも今までやってみて感じたことなのですが、例えば「立っている」「座っている」「コーヒーを飲んでいる」など定番というかよく使われそうな体勢のものは生成しやすいです。
前回作ろうとした「空中に浮かんでいる」というような体勢は、なかなか出てきませんでした。
AIというのはやったことを学習してそれをアウトプットする仕組みだと聞くので、アウトプット回数の多いものというのは生成されやすいのかなと思いました。
④サンプリング方法、サンプリングステップ数、CFGスケールの最適値を見つける
これらに関してもcivitaiのページに推奨値などが出ています。
⑤アップスケーラーを使って高解像度画像を出す
高解像度の画像を出すのには時間がかかるのため初めは普通解像度でバンバン出して、ある程度イメージに近いものが出てきたらアップスケーラーを使用して高解像度画像を出します。
今回は私が一番出しやすいと感じる成人女性を作ってみました。
プロンプトは大体こんな感じです。
女性、1人、笑顔、こちらを向いて立っている、黒髪、ロング、額を出す、ベージュのトレンチコート、黒と白のチェックのマフラー、グレーのパンツ、黒いローファー、冬、高画質、高解像度、精細なイラスト
彼女にマフラーを巻かせたかったので単純に「muffler」とプロンプトに入れましたが、何度やっても画像に反映されませんでした(他のソフト、モデルでは出るのかもしれませんが)。
なので「Wrap the scarf around her neck 」と入れました。するとすぐに反映されました。
さらに白と黒のチェックにしたかったので「Wrap the white and black check scarf around her neck」としました。
パンツがグレーではなく黒になってしまうので、次回グレーに修正してみます。
このように確実に反映されるプロンプトを自分の中に蓄積していけば、イメージのものにたどり着く時間が短縮できると思います。
これから成人男性、成人女性、少年、少女、おじいちゃん、おばあちゃんなどを生成していこうかと思います。
服の色や身に着ける小物などなるべく細かく設定し、どのようなプロンプトを入れると反映した画像が出るのかを試していきます。




























