C
ChaoBro

SANA-WM:26億パラメータ、H100 64枚で15日間学習——NVIDIAが「分単位」の世界モデルをシングルGPUデプロイへ実現

世界モデルにおける「効率競争」

世界モデル(World Model)は、AI分野において最も注目を集める研究方向の一つです——物理世界の法則を理解し、与えられたアクションに基づいて将来の動画フレームを生成できるモデルです。

しかし、これまでの世界モデルには2つの大きな課題がありました:巨大さ高コストです。パラメータ数は数十億に及び、学習には数千枚のGPUを数週間から数か月も要し、推論時にも複数枚のハイエンドGPUを必要としていました。

SANA-WMの姿勢はこうです。「より小さく、より速く、より安価に——しかも性能は決して劣らない」と。

2.6Bパラメータ:産業レベルの大規模モデルと同等

SANA-WMのパラメータ数はわずか2.6Bです。比較として、LingBot-WorldやHY-WorldPlayなどの産業向けベースラインモデルは、通常その数倍のパラメータ数を持ちます。

にもかかわらず、論文では、SANA-WMが視覚的品質においてこれらの大規模モデルと同等の水準に達していると主張しています——これは非常に大胆な主張です。

主要な評価指標:

  • 720p解像度、長さ1分の動画生成
  • 高精度なカメラ制御(6自由度:6-DoFの軌道追跡)
  • 学習効率:約213,000本の公開動画クリップのみを用い、H100 GPU 64枚で15日間の学習
  • 推論効率:単一GPUによる60秒動画生成;蒸留+NVFP4量子化版では、RTX 5090 1枚で34秒でデノイズ可能

4つのコア設計

ハイブリッド線形アテンション(Hybrid Linear Attention)

これは効率性の鍵となる技術です。SANA-WMは、フレーム間のGated DeltaNet(GDN)とsoftmaxアテンションを統合し、長い時系列コンテキストを維持しつつ、大幅なメモリ消費削減を実現しています。

簡単に言うと:GDNはフレーム間の時間的依存性(タイムディペンデンス)を処理し、メモリ効率が高く;一方、softmaxアテンションはフレーム内の空間的詳細を高精度に捉えます。両者は互いに補完し合います。

二重ブランチ式カメラ制御

生成される動画が入力された6-DoFカメラ軌道を厳密に遵守することを保証します。1つのブランチが空間的位置決めを担当し、もう1つが時間的な滑らかさ(タイムスムーズネス)を担保し、両者が協調して動作します。

2段階生成パイプライン

第1段階では基礎的な動画シーケンスを生成し、第2段階ではlong-video refinerがその出力を精緻化します。この設計は、画像生成における「ラフスケッチ→精修」プロセスに類似していますが、動画領域でははるかに複雑です——特に、時間的一貫性(temporal consistency)を確保するための追加工夫が必要となります。

ロバストなアノテーションパイプライン

公開動画から正確なメトリクススケール(metric-scale)の6-DoFカメラポーズを抽出し、これをアクションラベルとして使用します。このステップの品質は、モデルが学習する物理法則の正確性に直結します。

オープンソース化の意義

SANA-WMのオープンソース化は、世界モデルコミュニティにとって極めて重要な前進です。これまでは、高品質な世界モデルはほぼすべてクローズドであり、研究者たちは論文やデモ動画を通じてのみその性能を確認できました。

今や、2.6Bパラメータというコンパクトなサイズでありながら、コンシューマー向けGPU(RTX 5090)上でもデプロイ可能なオープンソース世界モデルが登場したことで、独立した研究者や小規模チームも、世界モデルに関する実験やアプリケーション開発を現実的に進められるようになりました。

潜在的な応用分野

分単位の世界モデルは、以下のような多様な応用が期待されます:

  • ゲームおよび仮想環境におけるダイナミックなシーン生成
  • 自動運転シミュレーション(異なるカメラ角度・アクション下での道路シーン生成)
  • 映画・映像制作におけるプレビジュアライゼーション(pre-visualization)
  • 具象知能(embodied AI)の訓練環境生成

主な出典: