AI&動画制作入門|実験レポート

イントロダクション

最新のGoogle動画生成AI「Veo3」を触ってみたら、制作体験がガラッと変わりました。
とくに驚いたのは音声がつくこと。日本語のリップシンク環境音(店内のざわめき等)まで出るので、“映像だけのAI”から“会話するAI動画”へ。さらに、長年の弱点だった「食べる」動作(減らない・箸が持てない等)も大幅に改善。写真1枚から動画化する新機能も搭載され、編集の発想が大きく広がります。

この記事では、6本の短い検証動画を使いながら、できたこと/まだ苦手なこと/再現しやすいプロンプトの型をまとめます。


3行まとめ

  • 音声つき:日本語/英語の発話とリップシンク、環境音も生成(※まれに音が出ないケースあり)

  • 所作の精度:食べる、箸の扱い、口元アップなど実写的に改善

  • 写真→動画1枚の写真から自然に動く動画を短時間で生成(=フェイクの作りやすさも上がる)


実験①:マクドナルドで談笑(英語音声)

プロンプト:日本の高校生男女のグループがマクドナルドで楽しく話しながら食べているシーン。
所見

  • 店内の空気感・ロゴや内装の“それっぽさ”・日本の高校生の雰囲気が高精度

  • 英語話者設定で英語発話+環境音

  • 5人構成でも破綻が少なく、口パクの同期も概ね良好
    気づき:ブランド表現は生成の“結果”として出ますが、商標・ロゴの扱いには注意

 

 


実験②:マクドナルドで談笑(日本語音声

プロンプト:日本の高校生男女のグループがマクドナルドで楽しく日本語で話しながら食べているシーン。
所見

  • 日本語の発話/リップシンクに対応。イントネーションはやや機械的だが実用域

  • セリフは「◯◯と言ってください」指定も概ね通る
    気づき言語指定は明示(例:「日本語で」)。固有名詞の発音は工夫して表記(カタカナ+ローマ字など)すると安定

 

 


実験③:口元アップでソフトクリーム

プロンプト:日本の女子高校生がマクドナルドで楽しくソフトクリームを食べているシーンの口元のアップ。
所見

  • 食べると量が減る表現まで実現。質感(溶け具合・テクスチャ)も良好

  • この回は音声が出ない不具合(制作時の一時的エラーと推測)
    気づき口元アップ食べ物の質感は相性◎。音声が必須の時は複数回生成→良いテイクを採用

 

 


実験④:ラーメン屋で“本気食い”

プロンプト:日本の高校生男女のグループがラーメン屋で夢中でラーメンを食べているシーン。
所見

  • 以前、欧米系モデルが苦手だった箸の扱い/麺をすする所作が大幅改善

  • 小物(箸・丼・湯気)も破綻が少ない

  • 学生のタイや服装の一部にジェンダー表現の揺らぎが見られることも(AIの多様性表現/単なるミスの可能性両面あり)
    気づき「食べる」タスクはかなり使える領域に。テーブルトップの手元が見える構図が説得力を上げる

 

 


実験⑤:無重力×ラーメン(宇宙ステーション)

プロンプト:日本の高校生男女のグループが無重力の宇宙ステーションで夢中でラーメンを食べているシーン。
所見

  • 状況設定は表現可能だが、ところどころ合成感

  • 音声なし(この回も無音生成)
    気づき:ファンタジー表現は得意だが、完全な無重力物理の整合性はまだ難あり。テロップで“演出”と割り切るのが吉

 

 

 

 


実験⑥:写真→動画(大阪万博の実物大ガンダム写真)

プロンプト:なし(写真1枚を読み込み
所見

  • 静止した実物大ガンダムが自然に動いて見えるショットを短時間で生成

  • 知らないと実在だと誤解する人もいるレベル=フェイクの作りやすさに留意が必要
    気づき被写体の権利/施設ポリシークレジットの明示等の対策は必須

 

 


すぐ使える:プロンプトの型(再現性↑)

  1. シーン:場所/時間/雰囲気

  2. 被写体:人数/年齢層/服装

  3. アクション:食べる/談笑する/歩く など

  4. カメラ:ワイド→ミディアム、口元のアップ、ゆるい手持ち 等

  5. 音声:言語(Japanese / English)、セリフ(「◯◯と言ってください」)

 


制作メモ(安定化のコツ)

  • 言語は明示(Japanese/日本語)。固有名詞はカタカナ+英字で補強

  • 手元の所作が映る構図を入れる(説得力UP)

  • 音声は無音で出ることも:複数生成→ベストテイク採用

  • 「舌を出す(あっかんべえ)」など一部ジェスチャーはセンシティブ判定で不可になりがち

  • ブランド/ロゴは不可避で出ることがある→公開時の扱いに注意


倫理・法務メモ(とても大事)

  • これはAI生成のフィクションである旨を動画説明欄や画面内に明記

  • 商標・ロゴ・キャラクター・建造物の権利に留意(商用利用や広告出稿の可否はケースバイケース)

  • 写真→動画肖像・施設の方針を必ず確認。出典・撮影者の明記を推奨

  • 誤解を招く用途(なりすまし等)は厳禁。出所表示で視聴者保護を


まとめ

Veo3で、音声×所作×写真→動画が実用域に。日常の“らしさ”が増したことで、教育・広報・プロトタイピングの用途が一段上の手触りになりました。
次はセリフ精度の上げ方音声後入れ(合成)とのハイブリッドカメラワーク指示の最適化を掘り下げたいです。