Seedance 2.0 は、ByteDance による次世代AI動画生成モデルであり、2026年3月に正式リリースされました。テキスト、画像、音声、動画の入力に対応し、最大9枚の画像、3本の動画クリップ、3本の音声クリップを参照として使用できます。また、ディレクター級の制御、動作の安定性、音声と映像の同時生成を目的として設計されています。Artificial Analysis の現在のブラインド投票型ランキングでは、Seedance 2.0 は音声なしのテキスト→動画および画像→動画の両カテゴリで首位を獲得しており、それぞれ Elo スコア 1269 と 1351 を記録しています。
Seedance 2.0とは?
Seedance 2.0 は ByteDance Seed による新世代の動画生成モデルです。公式には、テキスト・画像・音声・動画を統合的に扱うマルチモーダル音声映像生成アーキテクチャに基づいており、幅広い参照および編集能力を持つクリエイター向けツールとして位置付けられています。
このモデルは産業レベルのコンテンツ制作ワークフロー向けに設計されており、従来の 1.5 バージョンと比較して、物理的正確性、リアリズム、制御性、複雑な動きにおける安定性が大幅に向上しています。
従来のテキスト→動画中心のモデルとは異なり、Seedance 2.0 は完全に統合されたマルチモーダル生成パイプラインを導入し、以下を可能にします:
- テキストから動画生成
- 画像から動画アニメーション
- 動画から動画への編集
- 音声同期生成
これにより、2026年における最も包括的なAI動画制作プラットフォームの一つとなっています。
なぜ重要なのか?
多くの動画生成モデルは「プロンプト入力 → 動画出力」という限定的なワークフローに最適化されています。一方、Seedance 2.0 は動画生成を「監督の作業環境」として捉えています。
ByteDance によると、本モデルは複数の参照を同時に利用し、被写体の一貫性を維持し、詳細な指示に忠実に従い、さらにはカメラワークを“演出的”に計画することが可能です。
動画生成における最大の課題は、美しさだけでなく、連続性、動作の整合性、時間軸での制御であり、この点で大きな意味を持ちます。
新機能と主な特徴
マルチモーダル統合生成
最大の特徴は、複数モダリティを同時に扱える点です。Seedance 2.0 は最大9枚の画像、3本の動画、3本の音声を参照として使用し、最大15秒の動画を生成できます。
これにより、被写体やシーンだけでなく、動作スタイル、カメラ動作、特殊効果、音響まで一度に制御可能です。
ディレクター級の制御
演技、ライティング、影、カメラ動作などを細かく制御可能です。被写体の一貫性を維持し、複雑な脚本を再現し、編集ロジックに基づいたカメラワークを実現します。
編集と拡張機能
生成だけでなく、動画編集や延長にも対応。特定シーンの修正や続編生成(クリップ延長)が可能で、ワークフロー効率を大幅に向上させます。
複雑な動作の処理能力向上
複数人物や複雑な動作シーンに強く、物理的正確性・リアリズム・制御性が向上しています。
性能ベンチマーク
Artificial Analysis Video Arena において:
- Image-to-Video:Elo 1351(1位)
- Text-to-Video:Elo 1269(1位)
これらはユーザーのブラインド投票に基づく評価です。
総合評価
強み
- 複雑な動作に強い
- マルチモーダル対応
- 編集・拡張機能
- ランキング上位
限界
- 細部の安定性
- リアリズムのさらなる改善余地
- 複数被写体の一貫性
評価
単なるアップデートではなく、実用レベルに近づいた重要な進化といえます。
結論
Seedance 2.0 は、マルチモーダル統合、ディレクター級制御、ランキング上位という特徴を持つ、次世代のAI動画生成モデルです。