リアルタイム動画生成AI「RTFM」

アメリカのWorld Labsが発表した「RTFM: A Real-Time Frame Model」というリアルタイムで動画が生成されるモデルによって、まるで3DCGのゲームのように利用できる動画が公開されている。

このリアルタイム動画生成は画像生成や画像認識などの生成AIよりは要求スペックが高いが、NVIDIA H100 GPU 1基だけで動作しており、これほどの高い品質の動画が非常に少ない計算リソースでリアルタイムに生成できるというのはかなりの驚きがある。

これはCGではなく動画ではあるが、今後の改良等によってさらに動作が軽くなっていくのであれば、もしかしたらゲーム開発などに関わる3DCGにも影響があるのかもしれない。

通常、AI向け巨大データセンターはNVIDIAのGPUを十万～数十万基も使用するようだが、このリアルタイム動画生成はGPU1基だけで動作するとのことであり、データセンターなどを使わずにローカル環境で動作しているらしい。

【参考】2025年10月29日の記事(一部抜粋)

Introducing RTFM (Real-Time Frame Model): a highly efficient World Model that generates video frames in real time as you interact with it, powered by a single H100 GPU.

RTFM renders persistent and 3D consistent worlds, both real and imaginary.

Try our demo of RTFM today! pic.twitter.com/efS7qwQgQE
— World Labs (@theworldlabs) October 16, 2025

これは、あなたが操作すると同時にリアルタイムでビデオフレームを生成する、非常に効率的なワールドモデルです。NVIDIA H100 GPU 1基だけで動作します。現実および架空の世界を、永続的かつ3D的に一貫性のある形でレンダリングします。

RTFMは、従来のワールドモデルの課題となっている、LLMをはるかに凌ぐ計算能力の必要性、特に高解像度・高フレームレートでのインタラクティブな生成を実現するために、効率性・スケーラビリティ・永続性という3原則に基づき設計されたワールドモデル。
効率性面では、単一のNVIDIA H100 GPUだけでインタラクティブなフレームレートで動作。スケーラビリティ面では、従来の3DCG手法であるメッシュや3DGSを用いるのではなく、ニューラルネットワークを「学習済みレンダラ」として使用する。これは自己回帰型の拡散トランスフォーマー（Autoregressive Diffusion Transformer）で、大量の動画データからエンドツーエンドで学習し、反射や影などの複雑な効果も再現するという。

永続性面では、各フレームに3D空間での位置と向き（ポーズ）を持たせ、新しいフレームを生成する際、その場所の近くにあるフレームのみを「コンテキストジャグリング（Context Juggling）」と呼ばれる技術で参照する。これにより、計算コストを抑えつつ、広大な世界の永続性を実現する。

https://cgworld.jp/flashnews/01-202510-RTFM.html

※リアルタイム動画生成には膨大な計算能力が必要とされていたが、今回発表されたRTFMはNVIDIA H100 1基だけで動作するらしい。動画生成の分野でも生成AIの効率性は目覚ましい進歩があり、今後の生成AIに必要なハードウェアをこれまでの常識(スケーリング則)で捉えていると大変な過ちを犯すのかもしれない。

【参考】

AI による概要

リアルタイムの動画生成AIに必要な計算能力は膨大であり、技術の進歩とともに進化し続けています。以下に、その主な要因と現状について解説します。

リアルタイム動画生成AIの計算能力の課題

膨大なデータ処理: 動画は連続した大量の画像（フレーム）で構成されており、高解像度の動画をリアルタイムで生成するには、膨大なデータを瞬時に処理する必要があります。
低遅延の要求: リアルタイムアプリケーションでは、処理の遅延がシステム全体の応答性を損なうため、極限まで遅延を削減する必要があります。
大規模なモデル: 生成AIモデル、特に拡散モデルなどは計算負荷が非常に高く、動画生成においてはより大規模なモデルが必要となります。
複雑な処理: 動画生成AIは、単にフレームを生成するだけでなく、フレーム間の時間的な一貫性を維持したり、ユーザーの指示に沿った動きを生成したりする必要があるため、処理がより複雑になります。

計算能力向上のための技術

リアルタイム動画生成AIの実現には、以下のような技術が貢献しています。

高性能GPU: NVIDIA社の「LongLive」モデルが20.7 FPS（1秒あたりのフレーム数）を達成した例に見られるように、高性能なGPUの活用が不可欠です。
エッジAI: データをクラウドではなくデバイスの近くで処理することで、応答時間を大幅に短縮する技術です。スマートフォンなどのリソースが限られたデバイスでも、リアルタイム処理を実現するための重要な要素です。
効率的なモデル: モデルの最適化により、計算リソースの制約がある環境でもリアルタイム処理が可能になります。
分散処理: 複数のマシンやGPUで処理を分散させることで、大規模な計算を効率的に行うことができます。
オープンソースの技術: 「self-forcing」のようなオープンソース技術も開発されており、リアルタイムでインタラクティブな動画生成を可能にしています。

リアルタイム動画生成AIの最新事例

近年、リアルタイム動画生成AIの技術は急速に進歩しています。

Decart AI「MirageLSD」: ウェブカメラの映像をリアルタイムで別の世界観に変換するシステムです。
RTFM: ユーザーの操作と同時にリアルタイムで動画を生成し、ワールド探索を可能にする「世界モデル」が発表されました。
NVIDIA「LongLive」: 長時間の動画でも一貫性と滑らかさを保ちつつ、リアルタイムでのインタラクティブな生成を可能にします。

まとめ

リアルタイム動画生成AIは、高性能GPU、エッジAI、分散処理、モデルの最適化といった技術革新によって実現が進んでいます。膨大な計算能力を必要とする一方、MirageLSDやRTFMといった具体的なサービスやモデルも登場しており、今後ますます身近な技術になっていくでしょう。

※既に非常に少ないパラメータで巨大なLLMを上回る性能のAI「階層的推論モデル(HRM)」なども登場しており、スケーリング則(モデルのパラメータ数、学習データの量、計算リソースを増やせば増やすほど性能が向上するという考え方 )という経験則が通用しなくなってきている。AIは日進月歩の技術であることが分かる。

AIの「思考法」に革命か。人間の脳を模倣した新モデル「HRM」、ChatGPTを凌駕する推論能力を証明 | XenoSpectrum

※SVGと呼ばれるGPUを必要としない生成AI(LLM)まで登場してきている。

世界初！日本企業がGPUを不要とする生成AI (LLM) の開発に成功。／2025年10月10日の都内イベントで先行発表 | 株式会社I.Y.P Consultingのプレスリリース

※今では画像生成AIや画像認識AIでも小型軽量モデルが登場しており、しかもかなりの高品質な出力となっている。

画像認識AIモデル「Qwen3-VL」の軽量版が登場したので使ってみた、低いVRAM使用量で高性能を実現 - GIGAZINE

iGPUでも0.16秒で画像を生成できる軽量画像生成AIモデル「Nitro-E」をAMDがリリース - GIGAZINE