テキスト優勢を超えて:オムニモーダル大規模言語モデルのモダリティ選好の理解

arXiv cs.AI / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ネイティブなオムニモーダルLLMにおいてテキストと視覚の両方が使える状況で生じる「モダリティ選好」という課題を、これまで十分に調べられてこなかった観点として扱います。
  • コンフリクト(衝突)に基づく新しいベンチマークと、モダリティ選択率の指標を導入して、代表的な10のオムニモーダルLLMに対してモダリティ選好を体系的に定量化します。
  • その結果、従来のVLMで見られた「テキスト優勢」とは異なり、多くのオムニモーダルLLMが強い視覚への選好を示すことが分かります。
  • レイヤーごとのプロービングにより、この選好は最初から固定されているのではなく、ミドル〜後半の層で段階的に現れることが示されます。
  • 内部シグナルを活用してクロスモーダルな幻覚を診断し、タスク特化の学習データなしで3つの下流マルチモーダルベンチマークで競争力のある性能を報告しています。

概要: ネイティブ・オムニモーダル・大規模言語モデル(OLLMs)は、パイプライン型のアーキテクチャから統一された表現空間へと移行してきました。しかし、このネイティブ統合は、重大であるにもかかわらず十分に検討されていない現象を生み出します。それが「モダリティ嗜好」です。このギャップを埋めるために、まず、新たにキュレーションした対立(conflict)ベースのベンチマークと、モダリティ選択率(modality selection rate)という指標を用いて、OLLMのモダリティ嗜好を体系的に定量化します。10個の代表的なOLLMを評価した結果、顕著なパラダイムシフトが明らかになりました。従来のVLMに見られる「text-dominance(テキスト優位)」とは異なり、ほとんどのOLLMは明確な視覚的嗜好を示します。さらに、基盤となるメカニズムを理解するために、層ごとのプロービングを行い、そのようなモダリティ嗜好が静的なものではなく、中盤から終盤の層で徐々に現れてくることを示します。これらの知見に基づき、内部シグナルを活用してクロスモーダル幻覚(cross-modal hallucinations)を診断し、タスク固有データを用いないまま3つの下流のマルチモーダルベンチマークで競争力のある性能を達成します。本研究は、メカニズムに関する理解と、より信頼できるOLLMを構築するための実用的なツールの両方を提供します。コードおよび関連リソースは公開されています: https://github.com/icip-cas/OmniPreference