要旨: Omni 大規模言語モデル(Omni-LLM)は、統合的なマルチモーダル知覚において目を引く能力を示してきましたが、相乗的なオムニモーダル推論を必要とする複雑な状況では一貫してつまずきます。グローバルなマルチモーダル文脈の理解にとどまらず、効果的な推論には微細なクロスモーダル対応付けも不可欠であり、特にモダリティ間で共有される指示対象(参照対象)を特定することが重要です。しかし、この側面はほとんど見過ごされてきました。このギャップを埋めるために、我々は課題をクロスモーダル・コリファレンス(照応)問題として定式化します。そこでは、モデルがあるソースモダリティにおける参照対象を局所化し、それをターゲットモダリティで再同定しなければなりません。この枠組みに基づき、人間が設計した推論の根拠(リゾネーション)を備えた9つのタスクからなるデータセット CrossOmni を導入し、この能力を評価し、かつ向上させます。13のOmni-LLMに対する実験により、クロスモーダル・コリファレンスに関する体系的な弱点が明らかになり、これはコリファレンスを意識した思考パターンが欠如していることに起因すると我々は考えます。これに対処するために、クロスモーダル対応付けを2つの戦略で強化します。1つは学習不要の In-Context Learning(文脈内学習)手法、もう1つは、そのような思考パターンを誘発するよう設計した学習ベースの SFT+GRPO フレームワークです。いずれのアプローチも大幅な性能向上をもたらし、協調的推論タスクにも効果的に汎化します。全体として、本研究の発見は、頑健なオムニモーダル推論を進めるうえで、クロスモーダル・コリファレンスが決定的に欠けている重要な要素であることを示しています。
クロスモーダル・コリファレンス・アラインメント:オムニLLMにおける信頼性ある情報伝達を可能にする
arXiv cs.CL / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、オムニモーダル推論を信頼できるものにするうえで看過されてきた障害として、異なるモダリティ間で同一の実在する参照対象を結び付けるクロスモーダル・コリファレンスを特定する。
- タスクを、あるモダリティにおける参照対象の特定と、別のモダリティにおける再同定として定式化し、9つのタスクと人手設計の推論根拠を備えたCrossOmniデータセットを導入する。
- 13のオムニLLMにまたがる実験により、コリファレンスを意識した思考パターンの欠如に起因する、クロスモーダル・コリファレンスにおける体系的な弱点が示される。
- アラインメントを改善するため、著者らは学習不要のインコンテキスト学習アプローチと、コリファレンスを意識した推論を誘導する学習ベースのSFT+GRPOフレームワークを提案しており、いずれも大幅な向上をもたらす。
- 改善は協調推論タスクにも一般化し、クロスモーダル・コリファレンスが堅牢なオムニモーダルモデルにとって欠けている重要な要素であることを位置付ける。



