要旨: タスク干渉は、単一の会話内でのタスク切替によって引き起こされる性能低下であり、マルチモーダル対話システムの普及が進む一方で、テキストのみの設定に限定して研究されてきました。
本研究では、マルチモーダルLLMにおけるこの現象を評価するためのベンチマークを導入します。テキストとビジョンの6つのタスクを対象とし、履歴とターゲットの組み合わせを三つの軸(モダリティ不一致、推論不一致、回答形式不一致)に沿って体系的に変化させます。
オープンウェイトとプロプライエタリモデルの両方を対象とした実験は、タスク干渉が高度に方向性を持つことを示します。テキストのみのターゲットから画像ベースのターゲットへ切り替えると著しい性能低下を引き起こしますが、逆方向の遷移は劣化を最小限にとどめます。
不一致が複数の次元で同時に発生すると干渉はさらに増幅され、モダリティの差異が最も強い推進力となり、次いで回答形式が続き、推論要件の変化は最小限の劣化しかもたらしません。
マルチモーダルタスク干渉: マルチモーダルLLMにおける履歴-ターゲット不一致のベンチマークと分析
arXiv cs.CL / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- マルチモーダルLLMにおけるタスク干渉のベンチマークを、履歴とターゲットの組み合わせを3軸(モダリティ不一致、推論不一致、回答形式不一致)として6つのタスクにまたがって紹介する。
- 干渉は方向性に偏っており、テキストのみのターゲットから画像ベースのターゲットへ切り替えると著しい劣化を引き起こす一方、逆方向の遷移は劣化が小さいことを示す。
- 同時発生する不一致は干渉を増幅させ、モダリティ差が最も強い推進力であり、続いて回答形式が影響を与える。推論要件の変化はほとんど影響を及ぼさない。
- オープンウェイトモデルと専有モデルの両方を対象とした実験を含み、マルチモーダル対話システム設計への実践的示唆を浮き彫りにする。




