マルチモーダルタスク干渉: マルチモーダルLLMにおける履歴-ターゲット不一致のベンチマークと分析

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

マルチモーダルLLMにおけるタスク干渉のベンチマークを、履歴とターゲットの組み合わせを3軸（モダリティ不一致、推論不一致、回答形式不一致）として6つのタスクにまたがって紹介する。
干渉は方向性に偏っており、テキストのみのターゲットから画像ベースのターゲットへ切り替えると著しい劣化を引き起こす一方、逆方向の遷移は劣化が小さいことを示す。
同時発生する不一致は干渉を増幅させ、モダリティ差が最も強い推進力であり、続いて回答形式が影響を与える。推論要件の変化はほとんど影響を及ぼさない。
オープンウェイトモデルと専有モデルの両方を対象とした実験を含み、マルチモーダル対話システム設計への実践的示唆を浮き彫りにする。

要旨: タスク干渉は、単一の会話内でのタスク切替によって引き起こされる性能低下であり、マルチモーダル対話システムの普及が進む一方で、テキストのみの設定に限定して研究されてきました。
本研究では、マルチモーダルLLMにおけるこの現象を評価するためのベンチマークを導入します。テキストとビジョンの6つのタスクを対象とし、履歴とターゲットの組み合わせを三つの軸（モダリティ不一致、推論不一致、回答形式不一致）に沿って体系的に変化させます。
オープンウェイトとプロプライエタリモデルの両方を対象とした実験は、タスク干渉が高度に方向性を持つことを示します。テキストのみのターゲットから画像ベースのターゲットへ切り替えると著しい性能低下を引き起こしますが、逆方向の遷移は劣化を最小限にとどめます。
不一致が複数の次元で同時に発生すると干渉はさらに増幅され、モダリティの差異が最も強い推進力となり、次いで回答形式が続き、推論要件の変化は最小限の劣化しかもたらしません。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

マルチモーダルタスク干渉: マルチモーダルLLMにおける履歴-ターゲット不一致のベンチマークと分析

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒