「VideoPoet」Googleが新たな動画生成技術を発表

staffingの記事を参考にしながら、「VideoPoet」についてまとめようと思います。

(2023.12.19 )

Googleがテキストから動画を生成することができる、「VideoPoet」を発表しました。まだ使用することはできませんが、どんな機能があるのかを紹介します。

A large language model for zero-shot video generation

Google Research

「VideoPoet」

「VideoPoet」は、英文を入力すると動画が生成できる機能、画像から動画が生成できる機能、動画のスタイルを変更できる機能、動画の修正や加筆ができる機能、そして動画から音声を生成する機能などが用意されています。

VideoPoetはユーザーフレンドリーなインターフェースを持ち、簡単に操作することが可能です。

詳しいことはコチラのBlogに書いています。

VideoPoet　特徴　

Language models as video generators

「VideoPoet」の特徴は

左赤枠

VideoPoet のタスク設計を詳細に説明し、さまざまなタスクのトレーニングと推論の入力と出力を示します。モダリティは、トークナイザー、エンコーダー、デコーダーを使用してトークンとの間で変換されます。

右側が、各モダリティは境界トークンで囲まれ、タスクトークンは実行するタスクのタイプを示します。

VideoPoet　機能　

「VideoPoet」の機能は

(感想）

2023.12.28に書いた「Pika」画像から動画が作れるAIを遊んでみたに似ている機能かなと、ローチンしてみないと……わかんないけどね。

「VideoPoet」楽しみです。

※ 「ローンチ」とは、「新規のアプリケーション・ウェブサイト・ウェブサービスなどを発表・公開すること」という意味です。