動画生成分野は、いま静かに方向転換を迎えています。「見た目がリアルな動画を生成する」ことから、「ユーザーが本当に望む動画を生成する」ことに焦点が移りつつあります。この2つの目標の間には、想像以上に大きなギャップが存在します。
本論文『CogOmniControl』は北京理工大学のJianbing Shen研究チームによるもので、非常に具体的な課題に着目しています:制御可能な動画生成——単に何でもいいから動画を生成するのではなく、ユーザーの創造的意図に忠実に応える動画生成です。
核心アイデア:「考える」と「描く」を分離する
CogOmniControl の設計思想はシンプルながら極めて効果的です:制御可能な動画生成を2段階に分ける——創造的意図の認知(CogVLM)+動画生成(CogOmniDiT)。
一見するとこれは常識のように思えますが、実際には多くの動画生成モデルが、条件情報をアダプター経由で注入したり、拡散バックボーン内に汎用の視覚言語モデル(VLM)を埋め込んだりしています。その結果、条件制御の精度と生成品質の間に能力の不均衡(ギャップ)が生じてしまうのです。
CogVLM:「創作言語」を理解する視覚モデル
本手法の鍵となる革新点は、CogVLMの学習データにあります——現実のアニメ制作データであり、汎用的な画像・テキスト対データではありません。
なぜアニメ制作データを選んだのでしょうか? アニメ制作のプロセスは、もともと大量の「抽象的な条件 → 具体的な映像」変換を含んでいます:絵コンテのラフスケッチ、クレイレンダリング、コンセプトアート……これらはすべて、疎で抽象的な創作条件です。こうしたデータで訓練されたVLMは、ユーザーの創造的意図をより専門的かつ明確に理解でき、わずかな手がかり(スパースなヒント)を、豊かで詳細な推論出力へと変換することが可能です。
CogOmniDiT:コンテキスト内統合型の多条件制御
生成側ではCogOmniDiTを採用しており、コンテキスト内生成(in-context generation) を通じて、さまざまな種類の条件から得られる制御信号を統一的に処理します。さらに、CogVLMの推論出力と強化学習(RL)を用いて整合性を最適化します。
フィードバックループ型アーキテクチャ
さらに興味深いのは、CogOmniControlが全体をフィードバックループ型の「ハーネス(harness)風」アーキテクチャとして構築している点です:
- CogVLMがユーザーの意図を理解する
- CogOmniDiTが動画を生成する
- CogVLMが同時に評価器としても機能し、特定の評価基準を自律的に策定する
- 「Best-of-N」方式で最も優れた生成結果を選択する
この仕組みにより、モデルは単に動画を生成するだけでなく、自らの出力を評価・改善する能力も備えるようになります。
2つの新規ベンチマーク
本論文では、CogReasonBench および CogControlBench の2つの新しいベンチマークも公開されています。これらは専門的な制作ワークフローのデータから構築されており、模擬的な意図ではなく、実際の創造的意図を含んでいます。この2つのベンチマークにおいて、CogOmniControlは既存のオープンソースモデルを上回る性能を示しました。
論文のURL:arXiv:2605.19995