「MIT Tech Review: 動画でも生成革命、オープンAIが新モデル「Sora」を発表」

MIT Tech Review: 動画でも生成革命、オープンAIが新モデル「Sora」を発表 (technologyreview.jp)

「MIT Tech Review: 動画でも生成革命、オープンAIが新モデル「Sora」を発表」（ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者）がちょっと面白い。

「短いテキストの説明から、1分以内の詳細な高解像度フィルムクリップを作成できる驚くべきモデルだ。

オープンAIが発表前にMITテクノロジーレビューに提供した4点のサンプル動画は、同社がテキストからの動画生成技術（本誌が2024年の注目トレンドと目していた新しい研究の方向性）の可能性を押し広げたことを示している。」

「テキストの断片から動画を生成できる初の生成モデルは、2022年後半に登場している。しかし、メタ、グーグル、そしてランウェイ（Runway）というスタートアップ企業による初期サンプルには多くの欠点があり、画像も粗かった。それ以降、技術は急速に進歩した。昨年リリースされたランウェイの「ジェン2（Gen-2）」モデルは、大手スタジオのアニメーションに匹敵するクオリティのショートクリップを作成できるようになった。ただし、サンプルのほとんどはまだ数秒という短さだ。」

「オープンAIのSoraのサンプル動画は、高解像度で細部まで緻密に描写されている。オープンAIによれば最長1分の動画を生成できるという。東京の街並みを描いた動画からは、Soraが物体を立体的に組み合わせる方法を学習していることが分かる。カメラは急降下し、商店街を通り過ぎるカップルを追いかける。

オープンAIの主張によれば、Soraはオクルージョン（手前の物体が後ろの物体を隠す様子）もうまく表現できるという。ただし既存モデルの問題点として、対象物が視界から消えたときに追跡できない可能性がある。たとえばトラックが道路標識の前を通り過ぎた場合、その標識はもう現れないかもしれない。」

「「Soraをリリースする意味を見出す前に、より多くのフィードバックを得て、動画への対処が必要なリスクの種類をもっと学ばなければなりません」と、テキスト-画像生成モデル「ダリー（Dall-E）」を開発したアディティヤ・ラメッシュは言う。

オープンAIの科学者であるティム・ブルックスもこれに同意する。「我々が今この研究について話す理由の一つは、安全なデプロイ方法を見つける作業を開始するために必要な情報を得たいからです」。」

小松　仁

提供：オープンAI

プロンプト：雪に覆われた美しい東京の街がにぎわっている。カメラはにぎわう街の通りを移動しながら美しい雪景色を楽しんだり、近くの売店で買い物をする数人の人々を追ったりしている。華やかな桜の花びらが、雪の結晶とともに風に舞っている。

提供：オープンAI

プロンプト：数頭の巨大なケナガマンモスが雪原を踏みしめながら近づいてくる。羊毛のように長いマンモスの毛は、歩くたびに風に軽くたなびいている。雪に覆われた木々、遠くに見える雪を頂いた荘厳な山脈、うっすらと雲がかかった昼下がりの光が映し出される。遠く高い位置にある太陽が暖かく辺りを照らし、カメラは低いアングルから、美しい画像と被写界深度により、この大きくて毛むくじゃらな哺乳類の姿を見事に捉えている。