以前、AIで着物系画像を作っているという記事を書きましたが、今回は「十二単」イラストの生成について書いてみようと思います。
以前の記事はこちら↓
『久し振りの「Stable Diffusion」』
https://ameblo.jp/sera-hapihapi/entry-12875611787.html
『画像生成AIで『着物系イラスト』を作ることにこだわる理由』
https://ameblo.jp/sera-hapihapi/entry-12875988687.html
実は昨年も「十二単」イラストにチャレンジしたことがありましたが、そのときは、実写画像を使用して自作の「十二単LoRA」を作ったのですが、元々学習用に使った画像の画質が悪く、思うようなクオリティの画像は生成できませんでした。
「LoRA」とは、生成モデルが学習していない画像やスタイルを追加で学習させ、それを生成できるようにするツールなのですが、「十二単」の衣装を学習させる時に、高画質な学習用画像がほとんど見つからなかったため、学習素材を集めることにもとても苦労しました。
その結果、昨年作成した「十二単LoRA」を使っても、生成された画像は画質が悪かったり、着物の重ねの色が不自然だったりして、納得のいく「十二単」の画像を作ることはできませんでした。
さらに、実写を元にした「十二単LoRA」をイラスト生成モデルで使用しても、平安時代の女性特有の「垂髪(すいはつ)」の髪形が再現できず、アニメ風の髪型やヘアアクセサリーが加えられてしまい、イメージ通りのイラストはなかなか生成されませんでした。
「Stable Diffusion」の「txt2img」や「ControlNet」を使えば、ポーズや構図の再現は可能ですが、「十二単」にフリルやリボンが付いたりと、架空の衣装風になってしまい、私が目指している「ちゃんとした十二単」には程遠いものとなるのです。
そこで今回は「img to img」を活用し、実写の十二単画像を元にイラスト化を試みたのですが、元画像の画質が低いため、生成されたイラストのクオリティにも限界がありました。
「Denoising strength」を0.35から少しずつ調整してみても、数値を上げると着物の重ねの色や形が崩れてしまい、髪型もアニメ風になってしまいますし、生成される画像は元画像の影響を大きく受けるため、調整しても自分の好みの顔にならないことが多く、なかなか満足のいく仕上がりにならないのです。
おまけに、AIは全身像の描写が苦手で、顔が崩れることが多いため、別の画像の顔を合成したり、顔だけをアップにして生成するなど試行錯誤が必要になります。
私は画像素材として「Adobe Stock」で販売することも目的としていますので、審査に通るだけのクオリティも必要になってきます。
そのため、理想の「十二単」イラストを完成させるまでにはまだまだ時間がかかりそうですが、試行錯誤をする中で、少しずつ生成のコツもわかってきました。
今年はまだイメージ通りの「十二単」イラストを1枚も完成させていませんが、これからも様々な方法を試しながら、理想の「十二単」イラストを完成させるために頑張ろうと思います。
最後までお読みいただきありがとうございました。