テキスト優勢を超えて：オムニモーダル大規模言語モデルのモダリティ選好の理解

arXiv cs.AI / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ネイティブなオムニモーダルLLMにおいてテキストと視覚の両方が使える状況で生じる「モダリティ選好」という課題を、これまで十分に調べられてこなかった観点として扱います。
コンフリクト（衝突）に基づく新しいベンチマークと、モダリティ選択率の指標を導入して、代表的な10のオムニモーダルLLMに対してモダリティ選好を体系的に定量化します。
その結果、従来のVLMで見られた「テキスト優勢」とは異なり、多くのオムニモーダルLLMが強い視覚への選好を示すことが分かります。
レイヤーごとのプロービングにより、この選好は最初から固定されているのではなく、ミドル〜後半の層で段階的に現れることが示されます。
内部シグナルを活用してクロスモーダルな幻覚を診断し、タスク特化の学習データなしで3つの下流マルチモーダルベンチマークで競争力のある性能を報告しています。

概要: ネイティブ・オムニモーダル・大規模言語モデル（OLLMs）は、パイプライン型のアーキテクチャから統一された表現空間へと移行してきました。しかし、このネイティブ統合は、重大であるにもかかわらず十分に検討されていない現象を生み出します。それが「モダリティ嗜好」です。このギャップを埋めるために、まず、新たにキュレーションした対立（conflict）ベースのベンチマークと、モダリティ選択率（modality selection rate）という指標を用いて、OLLMのモダリティ嗜好を体系的に定量化します。10個の代表的なOLLMを評価した結果、顕著なパラダイムシフトが明らかになりました。従来のVLMに見られる「text-dominance（テキスト優位）」とは異なり、ほとんどのOLLMは明確な視覚的嗜好を示します。さらに、基盤となるメカニズムを理解するために、層ごとのプロービングを行い、そのようなモダリティ嗜好が静的なものではなく、中盤から終盤の層で徐々に現れてくることを示します。これらの知見に基づき、内部シグナルを活用してクロスモーダル幻覚（cross-modal hallucinations）を診断し、タスク固有データを用いないまま3つの下流のマルチモーダルベンチマークで競争力のある性能を達成します。本研究は、メカニズムに関する理解と、より信頼できるOLLMを構築するための実用的なツールの両方を提供します。コードおよび関連リソースは公開されています: https://github.com/icip-cas/OmniPreference

AIエージェントで人事制度が耐えられない話

note

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】

note

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

note

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

note

【過去の棚卸し】その「失敗談」が最強の武器に変わる。AIを参謀にして独自のビジネス価値を逆算する壁打ち術。

note

テキスト優勢を超えて：オムニモーダル大規模言語モデルのモダリティ選好の理解

要点

関連記事

AIエージェントで人事制度が耐えられない話

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

【過去の棚卸し】その「失敗談」が最強の武器に変わる。AIを参謀にして独自のビジネス価値を逆算する壁打ち術。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIエージェントで人事制度が耐えられない話

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週 火・木・土の18:00に投稿！】

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

【過去の棚卸し】その「失敗談」が最強の武器に変わる。AIを参謀にして独自のビジネス価値を逆算する壁打ち術。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】