要旨: Omni-modal Large Language Models(Omni-MLLMs)は、多様な感覚ストリームを統一的に統合することを約束します。しかし、最近の評価では重要な性能パラドックスが明らかになっています。すなわち、単一モダリティのベースラインが、しばしば共同のマルチモーダル推論を上回るのです。私たちは、この知覚上の脆さが、現在のモデルで広く用いられている静的な融合トポロジに起因することを追跡し、2つの構造的病理を特定します。順次入力における位置バイアスと、インタリーブ形式におけるアラインメントの罠であり、これらはタスクの意味論に関わらず注意(attention)を体系的に歪めます。この機能的な硬直性を解決するために、私たちはChain of Modality(CoM)を提案します。CoMは、マルチモーダル融合を受動的な連結(concatenation)から動的なオーケストレーションへ移行させるエージェント的フレームワークです。CoMは入力トポロジを適応的にオーケストレートし、構造的バイアスを相殺するために、並列・順次・インタリーブの各経路を切り替えます。さらにCoMは、認知的実行を2つのタスク整合的な経路に分岐させます。直接知覚のための合理化された「Direct-Decide」経路と、分析的な監査のための構造化された「Reason-Decide」経路です。学習を前提としない設定、またはデータ効率の高いSFT設定のいずれでも、CoMは多様なベンチマークにわたり、頑健で一貫した汎化を達成します。
Chain of Modality:静的フュージョンからダイナミック・オーケストレーションへ——Omni-MLLMsにおける変遷
arXiv cs.CV / 2026/4/17
📰 ニュースModels & Research
要点
- 本論文は、オムニモーダルLLMにおいて「単一モダリティの基準モデルが、マルチモーダルの統合推論よりも良い」性能逆転が起きがちな点を指摘しています。
- その脆さの原因として、既存モデルに広く見られる「静的フュージョン」構造が、注意をタスクの意味に関わらず歪めてしまうことを挙げています。
- 具体的には、逐次入力での位置バイアスと、インタリーブ形式でのアラインメント・トラップという2つの構造的問題を明らかにしています。
- これを解決するために、Chain of Modality(CoM)を提案し、受動的な連結から、入力トポロジを動的に制御する“オーケストレーション”へ置き換えます。
- CoMは並列・逐次・インタリーブの経路を状況に応じて切り替え、さらに「Direct-Decide」と「Reason-Decide」の2つの経路に認知を分岐させることで、学習なしまたは少量データでのSFTでも頑健で一貫した汎化を示すとしています。


