ByteDance Lance：パラメータの積み上げに頼らず、「マルチタスク協調」でマルチモーダル理解・生成・編集を統一

マルチモーダルモデルという分野では現在、まったく異なる2つの方向性が並行して進められています。

一方は「規模の力で奇跡を起こす」アプローチです。モデルを巨大化させ、データを増やし、学習期間を長くすることで、パラメータ規模の拡大が自然とクロスモーダル能力を生み出すことを期待します。もう一方は、ByteDanceが新たに発表した Lance のようなアプローチです。明確に「capacity scaling」路線を拒否し、アーキテクチャの革新と学習パラダイムによって統一マルチモーダルの課題を解決しようとしています。

統一 ≠ 寄せ集め

まず「統一マルチモーダル」が何を指すのかを明確にしましょう。それは、1つのモデルが理解（画像や動画の内容を把握）、生成（テキストから画像や動画を作成）、編集（既存の画像や動画を変更）を同時に実行できることを意味します。

これまでのアプローチは、3つの独立したモデルを学習させるか、あるいは超巨大なモデル上で異なるプロンプト形式を使って異なる能力を呼び出すかのどちらかでした。前者はコストが高く、後者は能力間の干渉が起きやすいという問題があります。理解タスクと生成タスクがモデルのパラメータに求める要件は、本質的に相反するからです。

Lanceのアプローチは非常に巧妙です：

デュアルストリーム MoE（Mixture of Experts）アーキテクチャ。同じモデルが基盤層でマルチモーダルなシーケンス表現を共有しながら、上層では2つの独立したエキスパートパスに分かれています。一方は理解タスク専用、もう一方は生成/編集タスク専用です。両パスは「コンテキスト学習」の恩恵（例えば画像とテキストの対応関係の理解など）を共有しますが、各自のパラメータが互いに干渉することはありません。

この設計は根本的な矛盾を解決します。理解には判別的な精密な分析が必要ですが、生成には創造的な表現力が求められます。これらを無理やり同じパラメータ群に押し込めると、往々にしてどちらも中途半端な結果に終わります。

マルチタスク協調学習の仕組み

アーキテクチャだけでは不十分であり、学習方法こそがLanceの真の差別化要因です。

論文では段階的マルチタスク学習パラダイムが提案されており、その核心となる考え方は「能力指向」です：

初期段階：まずモデルに基本的なクロスモーダルアライメント（画像とテキストのマッチング、動画フレーム間の関係性など）を学習させます
中期段階：生成および編集タスクを導入しますが、適応型データスケジューリングを用いて、理解能力と生成能力が同期して向上するようにします
後期段階：弱点となるタスクに対して集中学習（focused training）を行います

この学習戦略は、従来の統一モデルでよく見られる「忘却」問題（生成を学んだ後に理解を忘れる、またはその逆）を回避します。

論文ではさらに**モダリティ対応回転位置エンコーディング（modality-aware RoPE）**が導入されており、これは非常に実用的なイノベーションです。異なるモダリティのトークン（テキストトークン、画像パッチトークン、動画フレームトークン）は位置エンコーディングに対して異なるニーズを持っており、統一されたRoPEを使用するとクロスモーダル干渉を引き起こします。Lanceの位置エンコーディングはトークンのモダリティタイプを自動的に識別し、それぞれに異なる位置エンコーディング戦略を適用します。

パフォーマンス

Lanceは画像および動画生成タスクにおいて「substantially outperforms existing open-source unified models」——これは論文の原文です。同時に、強力なマルチモーダル理解能力も維持しています。

具体的には、「軽量」モデルでありながら、Lanceは動画生成の品質においてパラメータ数が多い競合製品を上回っています。これは、デュアルストリームアーキテクチャがパラメータの無駄を省き、マルチタスク学習による能力の相乗効果をもたらしたためです。

ByteDanceのマルチモーダルへの野心

ByteDanceがショート動画およびコンテンツ生成分野で持つ事業規模を考慮すると、Lanceの発表は純粋な学術的な動きではありません。統一された軽量マルチモーダルモデルは、抖音/剪映などの製品のコンテンツ制作ツールチェーンに直接組み込むことができます。ユーザーの意図を理解し、素材を自動生成し、動画をスマートに編集するまでをワンストップで実現します。

Apache-2.0 ライセンスでのオープンソース化（GitHub: bytedance/Lance、134 Stars）も、コミュニティの参加を促し、迅速なイテレーションと検証を望んでいることを示しています。

注目すべきポイント

軽量モデルの具体的な規模は？ 論文では「lightweight」を強調していますが、具体的なパラメータ数は明記されておらず、コミュニティによる実測を待つ必要があります
長尺動画の処理能力：Lanceは動画の生成と編集をサポートしていますが、最大何秒まで、どのような解像度まで処理可能かについては、論文に詳細なベンチマークがありません
オープンソースの進捗状況：現時点で 134 Stars とまだ初期段階であり、コードの完全性と使いやすさは今後の観察が必要です

主な情報源：

Lance: Unified Multimodal Modeling by Multi-Task Synergy
https://lance-project.github.io/
https://github.com/bytedance/Lance

統一 ≠ 寄せ集め

マルチタスク協調学習の仕組み

パフォーマンス

ByteDanceのマルチモーダルへの野心

注目すべきポイント

関連コンテンツ

CiteVQA：OpenDataLabが公開したドキュメントインテリジェンスのベンチマーク、AIの引用をすべて根拠追跡可能に

CLI-Anythingが1週間で1000スター急増：全ソフトウェアを「Agentネイティブ」へ、香港大学チームの新アプローチ

MMSkills：上海交通大学が視覚エージェントの能力を「スキルパック」に分解、マルチモーダルエージェントの新パラダイム