virt_flyのブログ -8ページ目

virt_flyのブログ

フライトシミュレーターソフトのFlightGearで仮想飛行を楽しむブログです。

 

スペイン内戦女性兵士ポスター画像編集

↑Bing Image Creatorの画像生成完了後の画面が新しくなりました

 

【目次】

(1)すべきことはシンプル(3回前)

 ・移民でなくても、AI・ロボットに仕事を奪われる

 ・Bing Image Creatorでとりあえず絵を作成してみよう

 ・保存・ダウンロード・再作成

(2)2つの画像生成モデル、動画生成、速度(前々回)

 ・2つの画像生成モデル

 ・動画作成

 ・生成速度と制限

(3)プロンプト入力の内容が肝心(前回)

 ・プロンプト入力の実例

 ・アダルト的、暴力的な描写は画像の生成・提供を拒否されたり、警告を受ける

(4)画像の編集(今回)

 

新しく「画像を編集」ボタンができている

 

 

Bing Image Creatornに新しく「画像の編集」機能ができたのでしょうか。

 

Bing Image Creatornを使ったはじめてのAI画像生成を試し、当ブログで3回わたり最低限必要なことを一通りメモしたつもりだったので、もうびっくりです。

 

前日までとは違い、画像が生成した後の画面が大きく変わって「プロンプトを編集」と「画像を編集」の2つのボタンができています。冒頭の画像1が新しい画面、次に掲げる画像2がこれまでの画面のそれぞれスクリーンショットです。

 

女性飛行士画像、実写風

↑画像2)画像生成完了後に表示された以前の画面

 

「画像を編集」ボタンををクリックすると(青くかわります)、ボタン下の枠内の表示は「開始する画像を選択し、追加、削除、または置換する内容を説明してください」となります。

 

「画像を選択」する必要があるのは、画像が一度に4枚生成されるDALL-E3を使った場合のことでしょう。「追加、削除、または置換」という以上、文章で変更部分を指示すれば画像に変更を加えることが可能とみられます。となれば、ブログに記述を追加しないわけにはいかず、急いで試してみることにしました。

 

ちょうど、作りかけていた画像があったので、これを例に「画像を編集」した結果を紹介することにします。

 

ちなみに画像は、来年で90周年を迎えるスペイン内戦で、共和国政府を支持して自ら銃をとり反乱軍と闘った多くの女性がいたことをモチーフとしたものです。

 

①最初のプロンプトによる画像の生成結果

 

プロンプトに「ポスターをつくる 一番上に赤色で¡No pasarán!と書き、その下に8枚の写真をそれぞれあえて異なる大きさ、縦型、横型を混ぜ、トリミングもして四方形になるようレイアウトする 使う写真はスペイン内戦当時の最新流行のロングスカートファッションも含め様々な装いをした1人あるいは2・3人の女性市民が、射撃姿勢や、小銃を担いだり、手に携え歩行するもの各2~3枚採用。色はセピアを避け、白黒を基本に2枚はカラーも混ぜる 真新しさのある今風」と入力し作成を実行しました。

 

スペイン内戦女性兵士 ポスター風画像

↑画像3)似たような構図、同じ人物は変えたいところ

 

戦争や銃がプロンプトに含まれるためか、ときどき画像が生成されないことがあり、生成できたのは幸いでした。説明の書き方がおそらく不適当で(決してよい実例でないことに留意願います)、生成した画像(画像3)にはプロンプトに書かれたことが反映されていない部分が多々あります。また似たような構図、人物だったりして改善が望まれます。

 

②「画像を編集」で、改善しいた部分の変更後の画像の生成結果

 

「画像を編集」で、「左上の写真を、数人の女性が伏せの姿勢で銃を構えている写真に変え、その下の写真の女性はタイトなロングスカートに 真ん中下の写真は銃を担いだ若い女性に」と入力。

 

スペイン内戦女性兵士ポスター、画像編集機能

↑画像4)まとめて3か所が変更された例

 

指定した3枚の写真風画像が変わりました(画像4)。伏射、街中などに変わっています。

 

ただし、現実の女性民兵にはファッション雑誌から抜け出てきたようなタイトなロングスカートをはいたイケてる写真をよく見かけるのですが、残念ながらそこまでは変わっていません。また、求めているのは銃を担いだ姿勢なのに手に携えていたりと、なかなか思うようにはなりません。

 

なお、変更は3枚一度に行わず、1枚ごとに作成を繰り返す方法も試してみました。

 

スペイン内戦女性兵士 ポスター風画像

↑画像5)不具合を重ねた失敗例 銃も小さい

 

変えなくてもよい箇所が少し変わってしまうこともあって、繰り返しにより不具合が重なる場合も起きました。画像5では、銃口がはみ出した写真は修整されないまま、別な写真同士が1枚に融合してしまっています。不具合が重ならぬように、「画像を編集」での修正はできるだけ1回で済ます方がよいかもしれません。

 

個人的に、ネットから拾ってきた縦長・横長入り混じる写真をサイズ変更、トリミングして組み合わせポスター風にしあげたものがあります。ゲルダ・タロ―によるフレアパンツ風のパンツ、ローヒールの靴のいでたちで片膝を地面につけ拳銃の狙いを定めている民兵訓練中の女性を真横から撮ったもの、プラウダの通訳である17歳の女性民兵マリナ・ジネスタをスペイン内戦の象徴とした写真、フランスに亡命しナチからルーアンを解放したマリア・バスケスの写真などを勝手に使ったもの。

 

それ自体著作権上いかがなものかであり、ましてや公表は憚れるものです。ただし、実写の完成度が高いのに助けられて出來は自画自賛ながら悪くありません。代わりに公表できるように考え生成AIに似たものを作らせようとしたのですが、その出來はとても及ぶものではありませんでした。

 

雨の御堂筋、銀杏並木と横断歩行者

↑Bing Image Creatorに御堂筋ぽい画像をつくらせた 本当は側道含め6車線なんだけど

 

【目次】

(1)すべきことはシンプル(前々回)

 ・移民でなくても、AI・ロボットに仕事を奪われる

 ・Bing Image Creatorでとりあえず絵を作成してみよう

 ・保存・ダウンロード・再作成

(2)2つの画像生成モデル、動画生成、速度(前回)

 ・2つの画像生成モデル

 ・動画作成

 ・生成速度と制限

(3)プロンプト入力の内容が肝心(今回)

 ・プロンプト入力の実例

 ・アダルト的、暴力的な描写は画像の生成・提供を拒否されたり、警告を受ける

(4)画像の編集(次回)

効率良く画像生成するためには

 

前回のブログで書いたように、プロンプトに「実写風」や「アニメ風」、他にも「油絵風」や「水彩画風」などと追加入力してやれば、実写風、アニメ風などの画像が生成されます。

 

Bing Image Creatorに自分が望む画像を描かせるには、プロンプトに的確な指示を入力することが肝要に思います。

 

 

■プロンプト入力の実例

 

「雨の御堂筋」をテーマに、プロンプト入力次第でBing Image Creatorがどのように画像を生成するか実例を見てみましょう。

 

①プロンプトに「雨の御堂筋」とだけ入力

 

雨の御堂筋、傘を差す人々

↑画像1)

 

プロンプトに「雨の御堂筋」とだけ入力して、Bing Image Creatorに画像を生成させてみたのが画像1。車道を歩行者天国のように人が通行していて、これでは使えません。御堂筋の文字も変ですね。

 

②「雨の御堂筋車道」と入力

 

雨の御堂筋、傘を差す人々、車、街並み

↑画像2)

 

プロンプトに「雨の御堂筋車道」と入力したのですが、生成された画像2では相変わらず歩行者が大勢通行しています。

 

③「雨の御堂筋を走行する車と横断する通行人」と入力

 

雨の御堂筋を歩行者が傘をさして横断

↑画像3)

 

プロンプトの内容が「雨の御堂筋を走行する車と横断する通行人」というように具体的な説明となったので、生成された画像3ではようやく車道にあふれていた歩行者はいなくなり、整然と横断歩道を渡るようになりました。

 

しかし御堂筋の文字が変ですし、一歩通行の車道なのに信号機は車の方を向いていません。

 

④プロンプトの「雨の御堂筋を走行する車と横断する通行人」は変えずに再作成

 

雨の御堂筋、傘を差して横断歩道を渡る人々

↑画像4)

 

プロンプトの中味は変えずに再作成を実行したところ、画像4では変な文字の看板もなくなり、一見いい塩梅の画像ができたと思ったのですが、信号機が相変わらず車の方に向いていないばかりか、車道が青信号なのに歩行者が悠然と横断しています。もっと言えば先の方の信号はよいのですが、一番手前の信号は青が右端、すなわち赤の位置にきているのもおかしなところです。残念ですが、またまた使えない画像です。

 

⑤プロンプトは変えずに再々作成

 

雨の御堂筋、傘を差す人々、横断歩道

↑画像5)

 

再々作成の画像5では、すっかり暗くなりました。相変わらず、信号機、看板には不満です。

 

⑥プロンプトを「雨降る昼の御堂筋の並木と走行する車、横断する男女の歩行者」にして作成

 

雨の御堂筋、傘を差す男女が横断

↑画像6)

 

明るく、また画像1や2くらいに並木を強調したくて、プロンプト入力に「雨降る昼の御堂筋の並木と走行する車、横断する男女の歩行者」というように時間帯や「並木」を追加入力したところ、生成した画像6では、鬱蒼と茂る並木が戻り、空も少し明るくなり、道路標識の御堂筋の文字も少しましになりました。しかし、車道が一方通行でなくなっています。ビル群も逆に見えなくなっています。

 

⑦プロンプトを「雨降る昼の御堂筋 銀杏並木と一方通行の車道 車は前向き 手前の横断歩道を男女が通行 奥には並木の陰からビルがのぞく 実写風」にして作成

 

雨の御堂筋、銀杏並木と通行人

↑画像7)

 

これが最後とプロンプトを「雨降る昼の御堂筋 銀杏並木と一方通行の車道 車は前向き 手前の横断歩道を男女が通行 奥には並木の陰からビルがのぞく 実写風」にして作成したのが画像7です。並木を銀杏並木とより具体的にし、前後の位置関係も明らかにし奥には並木からビルがのぞくとしたことで、印象的にはずいぶん御堂筋ぽくなりました。側道になんと車も見えるのはうれしいのですが、本線の車はなんでそんなところで止まっているの? できがわざとらしく、TVドラマのタイトルバックみたいで、この2人の関係はと思わせたいのかという構図です(^0^) 実際の御堂筋は本線4車線のはずで、画像では3車線しかなくやはりずいぶん狭く見えるのも残念です。

 

その後も悪あがきをしたのが冒頭の画像です。「車は横断歩道の手前で停止」などとプロンプトに追加入力し改善をみたものもありますが、側道含む車道全6車線はだめでした。まあ、AI画像生成をはじめてまだ2、3日の人間ですから修業が足りないのは明らか。精進するほかありません。

 

 

■アダルト的、暴力的な描写は画像の生成・提供を拒否されたり、警告を受ける

 

画像の生成にあたっては、実はプロンプト入力の改善以前の問題があります。モチーフがアダルト的、暴力的な描写は画像の生成・提供を拒否されたり、警告を受ける可能性があるということです。

 

危険な画像コンテンツ

↑画像8)モチーフによっては「安全でない画像コンテンツが検出されました」として生成画像の表示が拒否されます

 

お祭りの画像を試していて「サンバ」を描かせようとしたら、作成が始まって少しずつ画像が現れだしていたのに最後は「安全でない画像コンテンツが検出されました」と表示がでて、「イメージの生成は表示されません」と画像の表示自体が拒否されてしまいました(画像8)。

 

肌の露出の多いものはアダルトとみなされたものか? おそらく、アダルト的な描写は表示を拒否するのがポリシーなんでしょう。

 

また、「ミッドウェイ海戦」や「バトル・オブ・ブリテン」、「MiG21とF4ファントムの空戦」などと戦争を内容とするプロンプト入力した場合も画像の表示を拒否されてしまいます。戦争のような暴力的な描写は拒否するのがBing Image Creatorのポリシーなのかと思われます。ただし、「関ケ原合戦」や「トラファルガーの海戦」だと拒否されないところを見ると、現在でも紛争になっていたり紛争のもとになりかねない比較的新しい戦争については、政治的配慮が行われている可能性もあります。

 

コンテンツポリシー違反による画像生成ブロック

↑画像9)モチーフによってはポリシー違反が多いとアクセスの自動的停止の可能性が警告されます

 

なかには、警告が出るケースもあります。試しに、しばしばアメリカで起きる「警官が黒人を殴打する」事件をモチーフに画像を作成しようとしたら、「コンテンツの警告」が表示され、ポリシー違反が多いとアクセスの自動的停止の可能性があると警告されました(画像9)。この場合、まだ試していませんが[報告する]ボタンを押すことで物言いができるようです。

 

 

今回のまとめ

 

使い始めで、あまり役立つことは書けませんでしたが、プロンプト入力で具体的かつ的確な説明、指示をBing Image Creatorに与えることができれば、画像の生成は手っ取り早く効率的と考えられます。こちらの能力が問われてしまいますが、Bing Image Creatorにも限界があることでしょう。

 

モチーフによっては望み通りのものがすぐに得られたり、得られなかったりします。街中より自然の景色、風景より単体のもの、特殊なものより一般的なもの、よく知られていないものよりよく知られたもの、逆にあいまいさが許されないものより許されるものの方が、概しておかしなところのない望みの画像が少しは得やすくなるように思います。割り切って使い方にあわせた融通さもって臨むことがあってもよいのでは。

 

コンテンツポリシーの問題は大事で、制限もある程度いたしかたないことと思いますが、企業防衛のためかかなり広く網打たれている感があります。人権や表現の自由にかかわるシビアな問題をはらんでおり、コメントはこれくらいにとどめます。

 

《補足》

 

今回、ブログではふれませんでしたが、作成された画像の利用についての注意です。著作権はBing Image Creator側は放棄していて利用者に存するようですが、生成された画像が主に参考とした画像に似てしまった場合、利用者が法的な責任を問われる可能性がないとは言えないということです。Bing Image Creatorを使用して作成したことなどを付記したとしても、これに変わりはありません。法律には門外漢の言うことですから不正確でしょうが、お気を付けください。

 

個人的に問題を感じるのは、Bing Image Creator側が著作権を放棄していても、生成された画像を利用する権限を持っていること。画像の生成に利用されたりするようなので、Bing Image Creatorで生成された大量のフェイク画像が今度はBing Image Creatorにより参考にされてしまうようなら、悪貨が良貨を駆逐するではありませんが、いつしかフェイクが本物のように見做されてしまうことにならないかという恐れです。

 

日本風とされる中国製品には日本人からすれば奇異なものが今でも多いですから、本来日本らしいものでも将来日本風とみなされず、偽りの日本風がありがたががられる日が来そうです。我々日本人だって、例えばフランス風とドイツ風の違いをどれだけ知っていることか。フェイクが幅を利かすのに自分も加担していないかと思うと、空恐ろしい気がします。

黎明期の飛行機に乗り手を振る女流飛行士

↑Bing Image Creatorの「GPT-4o」モデルで作成した「黎明期の飛行機に乗り手を振る女流飛行士」の実写風画像

 

【目次】

(1)すべきことはシンプル(前回)

 ・移民でなくても、AI・ロボットに仕事を奪われる

 ・Bing Image Creatorでとりあえず絵を作成してみよう

 ・保存・ダウンロード・再作成

(2)2つの画像生成モデル、動画生成、速度(今回)

 ・2つの画像生成モデル

 ・動画作成

 ・生成速度と制限

(3)プロンプト入力の内容が肝心(次回)

 ・プロンプト入力の実例

 ・アダルト的、暴力的な描写は画像の生成・提供を拒否されたり、警告を受ける

(4)画像の編集(次々回)

なかなかの出来栄え!でも微妙なところも

 

前回は、Bing Image Creatorを使ってとにかく画像を作成し、また保存するにはどうすればよいのかにふれました。今回は、2つの画像生成モデルや動画作成について試してみます。

 

 

■2つの画像生成モデル

 

Bing Image Creatorでは、画像の作成にあたり「GPT-4o」と「DALL-E 3」という2つの画像生成モデルが選べます。

 

Bing Image Creatorのモデル選択画面

↑画像1)[モデル:…]をクリックし、画像生成モデル選択用のドロップダウンメニューを開いたところ

 

プロンプト入力枠の下部に、「モデル:…」と書かれた箇所があります。ここをクリックするとドロップダウンメニューがひらき、「GPT-4o」と「DALL-E 3」という2つの画像生成モデルが選べるようになっています(画像1)。

 

GPT-4oで生成された実写風女流飛行士

↑画像2)「GPT-4o」モデルで画像作成した結果

 

黎明期の女流飛行士 実写風画像

↑画像3)「GPT-4o」モデルで画像作成した結果

 

「GPT-4o」は、「DALL-E 3」より画像の作成に時間がかかり、作成される画像も1つです。これに対し、「DALL-E 3」は作成が速く、作成される画像も3~4と多いです。

 

関心は、両者の画像の出来栄えでしょう。プロンプトで「黎明期の女流飛行士 実写風」と入力して比較してみましょう。

 

黎明期の女性飛行士、飛行機と共に

↑画像4)「GPT-4o」モデルで作成した実写風画像

 

黎明期女流飛行士 実写風画像

↑画像5)「DALL-E 3」モデルで作成した実写風画像の一つ

 

「GPT-4o」モデルで作成した実写風画像は、その当時に撮影され古いアルバムから取り出してきた写真のような古色蒼然たる感じがリアルであり、「DALL-E 3」モデルで作成した実写風画像の方は、往年の写真というより現在のモデルを使い最近撮影されたCM映画の1シーンかのような画像となっています。

 

同様にして、次は「アニメ風」に作成した画像を比べてみましょう。

 

レトロアニメ風の飛行士の女性

↑画像6)「GPT-4o」モデルで作成したアニメ風画像

 

GPT-4oで作成した実写風画像

↑画像7)「DALL-E 3」モデルで作成したアニメ風画像の一つ

 

「GPT-4o」モデルで作成したアニメ風画像の方は、いかにも古いアニメの趣きがあり、「DALL-E 3」モデルで作成したアニメ風画像の方は、CGを使った今風のアニメといった感じです。

 

ポートレート的なものばかりでなく、趣を変えて次は風景で比較してみましょう。

 

雨の交差点を傘を差して渡る人々

↑画像8)「GPT-4o」モデルで作成した実写風画像

 

雨の街並み、信号待ちの車と横断歩道

↑画像9)「DALL-E 3」モデルで作成した実写風画像の一つ

 

いずれも実写風を指定して作成したものですが、「GPT-4o」モデルの方は、車道の信号が青で人が横断しているのはまだ良しとしても、一方通行なのに信号機が反対向きについているのはいかにもおかしいのですが、雰囲気はまるでカメラで撮ってきたかのようにリアルです。他方、「DALL-E 3」モデルの方は、実写とは言い難くイラスト感満載です。

 

「GPT-4o」がよいか「DALL-E 3」がよいかは個人の好み問題ですが、両方を試して使い分けるのがよさそうです。

 

 

■動画作成

 

Bing Image Creatorでは、画像だけでなく動画も作成することができます。とはいっても5秒間ですが。

 

Bing Image Creatorのビデオ作成画面

↑画像10)Bing Image Creatorのサイト画面 プロンプト入力枠の上方に[ビデオ]ボタンが見える

 

動画を作成するには、プロンプト入力枠の上にある[ビデオ]ボタンをクリックして青くしておく必要があります。その後プロンプトに入力し、[作成]ボタンをクリックすると動画作成が始まります。

 

残念ながら動画の出来は芳しくありません。例えば、飛行機である「B-29」の画像を作らせれば、立派にB-29と見えるのに、動画だとどういう訳か似ても似つかぬものができてしまいます(画像11、画像12)。

 

B-29動画作成結果

↑画像11)Bing Image Creatorが作った動画のB-29は似ても似つかぬもの

 

B-29爆撃機、飛行中の実写風画像

↑画像12)Bing Image Creatorが作ったB-29の画像 本物⁈

 

実例を示すことまではしませんが、Bing Image Creatorでほかにもいくつか動画をつくってみましたが、いずれもひどいできでした。似ても似つかぬねぶたに笠もかぶらず手をたたいて囃すだけの跳人だったり、機首ばかりか翼端や尾部にプロペラが付きどちらに向けて飛んでいくのかというような飛行機、など。

 

 

■生成速度と制限

 

Bing Image Creatorでは、画像や動画作成に際して高速と標準の二つの速度があります。

 

動画作成では、プロンプト入力枠の下部に[速度]と書かれたボタンがあり、クリックするとドロップダウンメニューが開いて速度が選べるようです。

 

画像作成では速度ボタンはなく、デフォルトは高速モードのようです。

 

高速モードには制限があり、1日15回まで。作成が15回を超えると標準速度となります。標準速度ではかなり時間を喰い、かなりの我慢を強いられます。無料ですからいたしかたありません。

 

 

今回のまとめ

 

無料の画像生成AIも、動画を除けばなかなかの出来栄えですが、使えるかというと、文字がでたらめだったり、信号機の向きが違っていたりと微妙な場合のあることがわかりました。

 

Bing Image Creatorでは、標準速度であれば無料で無制限に画像作成ができるもののかなり遅く、いろいろ試すには最初の15回までの高速が利用できる間でと覚悟が必要です。

 

効率よく画像を作成する方法はないものか、次回はプロンプトの書き方を考えてみたいと思います。