Seedance 2.0 は、ByteDance による次世代AI動画生成モデルであり、2026年3月に正式リリースされました。テキスト、画像、音声、動画の入力に対応し、最大9枚の画像、3本の動画クリップ、3本の音声クリップを参照として使用できます。また、ディレクター級の制御、動作の安定性、音声と映像の同時生成を目的として設計されています。Artificial Analysis の現在のブラインド投票型ランキングでは、Seedance 2.0 は音声なしのテキスト→動画および画像→動画の両カテゴリで首位を獲得しており、それぞれ Elo スコア 1269 と 1351 を記録しています。

Seedance 2.0とは?

Seedance 2.0 は ByteDance Seed による新世代の動画生成モデルです。公式には、テキスト・画像・音声・動画を統合的に扱うマルチモーダル音声映像生成アーキテクチャに基づいており、幅広い参照および編集能力を持つクリエイター向けツールとして位置付けられています。

このモデルは産業レベルのコンテンツ制作ワークフロー向けに設計されており、従来の 1.5 バージョンと比較して、物理的正確性、リアリズム、制御性、複雑な動きにおける安定性が大幅に向上しています。

従来のテキスト→動画中心のモデルとは異なり、Seedance 2.0 は完全に統合されたマルチモーダル生成パイプラインを導入し、以下を可能にします:

  • テキストから動画生成
  • 画像から動画アニメーション
  • 動画から動画への編集
  • 音声同期生成

これにより、2026年における最も包括的なAI動画制作プラットフォームの一つとなっています。

なぜ重要なのか?

多くの動画生成モデルは「プロンプト入力 → 動画出力」という限定的なワークフローに最適化されています。一方、Seedance 2.0 は動画生成を「監督の作業環境」として捉えています。

ByteDance によると、本モデルは複数の参照を同時に利用し、被写体の一貫性を維持し、詳細な指示に忠実に従い、さらにはカメラワークを“演出的”に計画することが可能です。

動画生成における最大の課題は、美しさだけでなく、連続性、動作の整合性、時間軸での制御であり、この点で大きな意味を持ちます。

新機能と主な特徴

マルチモーダル統合生成

最大の特徴は、複数モダリティを同時に扱える点です。Seedance 2.0 は最大9枚の画像、3本の動画、3本の音声を参照として使用し、最大15秒の動画を生成できます。

これにより、被写体やシーンだけでなく、動作スタイル、カメラ動作、特殊効果、音響まで一度に制御可能です。

ディレクター級の制御

演技、ライティング、影、カメラ動作などを細かく制御可能です。被写体の一貫性を維持し、複雑な脚本を再現し、編集ロジックに基づいたカメラワークを実現します。

編集と拡張機能

生成だけでなく、動画編集や延長にも対応。特定シーンの修正や続編生成(クリップ延長)が可能で、ワークフロー効率を大幅に向上させます。

複雑な動作の処理能力向上

複数人物や複雑な動作シーンに強く、物理的正確性・リアリズム・制御性が向上しています。

性能ベンチマーク

Artificial Analysis Video Arena において:

  • Image-to-Video:Elo 1351(1位)
  • Text-to-Video:Elo 1269(1位)

これらはユーザーのブラインド投票に基づく評価です。

総合評価

強み

  • 複雑な動作に強い
  • マルチモーダル対応
  • 編集・拡張機能
  • ランキング上位

限界

  • 細部の安定性
  • リアリズムのさらなる改善余地
  • 複数被写体の一貫性

評価

単なるアップデートではなく、実用レベルに近づいた重要な進化といえます。

結論

Seedance 2.0 は、マルチモーダル統合、ディレクター級制御、ランキング上位という特徴を持つ、次世代のAI動画生成モデルです。