AIを背景やモブを描けるアシスタントとして使えるのではないかと考えて試作してみた経過報告です。
背景は現代ものより年代不詳のファンタジーが得意です。
カラーの城や要塞はそれらしく早く生成できます。
現代でも国籍不明の公園や住宅街はそれらしく綺麗に描けます。
モノクロの場合もカッチリしたビルなら何とかなります。
プロンプトに建築パース、遠近法と書くとできました。
欧米風の住宅街や公園やマンションやビルは描けますが
異文化は理解していません。特定の国の生活空間は描けません。
日本の居酒屋と書くとありえない光景を生成します。
日本車もよく見ると崩壊しています。車はタイヤが苦手です。
人間は指の崩壊率が高く、動かすと体も崩壊します。
米国人のソウルフードも食べられませんでした。
人間は任せられません。
指の崩壊は技術的な理由があります。3D情報を知らないので、データを増やせばできるというわけではないそうです。
現状の著作権侵害的な画像生成AIでの、構図や作画の崩壊は、絵が上手い人や審美眼のレベル高い人には耐えれなさそうなのはわかる。
— まさき| CVMLエキスパートガイド管理人 (@cvml_eg) July 10, 2023
パースの正しさや、オブジェクトの3D形状や配置などまでは、アノテーションで与えてない。よって、生成プロンプト次第で容易に崩壊してしまう。
逆に,学習画像群の中で,四肢があって姿勢や体型が変化する物体クラス(人間や,犬に,ピカチュウ)だと,完璧にはその変化が捉えられない.
— まさき| CVMLエキスパートガイド管理人 (@cvml_eg) July 10, 2023
超大量の対象クラスの画像を使えば,なんとなく綺麗な物体は出力できますが,3D情報を知らないので限界がある
だからたまに体型や手先・指や体型が崩壊する.
現状では使途はかなり限られます。
1頁だけのカラーなら使いようがありますが、日本の生活漫画の背景は、今ある素材を活用した方が確実で早いと思います。
その気になればすぐ使えますから焦る必要はありません。
以上あくまでFirefly限定の話ですが、指は他でもダメなようで
韓国のWebtoonアプリTooning Magic AIも指は崩れます。