要旨: テキスト、画像、動画、3D幾何、そして隠れ表現など、多様なモダリティ上でネイティブに学習された統一型マルチモーダルモデルであるOmniを提示します。こうした学習により、モデルが予測を行う前に複数のモダリティ表現をまたいで明示的に推論する「Context Unrolling(文脈のアンローリング)」が可能になることを見出します。この過程により、異種のモダリティ間で補完的な情報を集約し、共有されるマルチモーダル知識マニフォールドをより忠実に近似することができ、下流の推論の信頼性が向上します。その結果、Omniは、マルチモーダル生成ベンチマークと理解ベンチマークの両方で強力な性能を達成し、さらにテキスト、画像、動画、3D幾何に対する文脈内生成を含む高度なマルチモーダル推論能力を示します。
OmniモデルにおけるContext Unrolling
arXiv cs.CV / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、テキスト、画像、動画、3Dジオメトリ、そして内部表現(hidden representations)を含む多様なモダリティをネイティブに学習する統一型マルチモーダルモデル「Omni」を提案している。
- 著者らは、この学習により「Context Unrolling」が生じると主張しており、モデルは予測を出す前に複数のモダリティ表現にまたがって明示的に推論する。
- Omniは異種モダリティ間の補完的な情報をより適切に統合でき、共有されるマルチモーダル知識空間をより忠実に近似することで推論の精度を高めるとされる。
- 同モデルは、マルチモーダルな生成および理解ベンチマークで強い性能を示し、さらにin-contextでテキスト、画像、動画、3Dジオメトリを生成できる高度なマルチモーダル推論能力が示されている。
- 総じて、この研究はContext Unrollingをマルチモーダル・システムの下流推論の忠実度を高める手段として位置付けている。



