要旨:医用視覚質問回答(Med-VQA)は、医用画像に基づいて臨床的に関連する質問に答えることを目的としています。しかし、既存の多模态大規模言語モデル(MLLMs)は、視覚的証拠に十分に注意を払うことなく、言語的事前知識やデータセットのバイアスを利用してもっともらしい回答を生成するショートカット回答を示すことがしばしばあります。この挙動は臨床の信頼性を損なうものであり、特に微妙な画像所見が決定的である場合には重要です。私たちは、InViC(Intent-aware Visual Cues)と呼ばれる軽量なプラグインフレームワークを提案し、医用VQAにおける画像ベースの回答生成を明示的に強化します。InViCは、Cue Tokens Extraction(CTE)モジュールを導入し、密な視覚トークンをK個の質問条件付きキュー・トークンのコンパクトな集合に蒸留します。これらは、LLMデコーダに注入され、意図に沿った視覚証拠を促進する構造化された視覚的中間表現として機能します。視覚情報の迂回を防ぐため、キュー・ボトルネック付きのアテンションマスクを用いた2段階のファインチューニング戦略をさらに設計しました。ステージ Iでは、アテンションマスクを用いてLLMの生の視覚特徴の直接的な視認を遮断し、全ての視覚証拠をキュー経路を通じて絞り込むようにします。ステージ IIでは、標準的な因果アテンションを回復し、視覚トークンとキュー・トークンを共同で活用するようLLMを訓練します。InViCを公的な3つのMed-VQAベンチマーク(VQA-RAD、SLAKE、ImageCLEF VQA-Med 2019)で評価し、複数の代表的なMLLMに渡って検証しました。InViCはゼロショット推論および標準のLoRAファインチューニングを一貫して改善し、ボトルネック型訓練を伴う意図認識的視覚手掛かりが、信頼できるMed-VQAを改善する実用的で効果的な戦略であることを示しています。
InViC: 医療用ビジュアル質問回答における意図を考慮した視覚キュー
arXiv cs.CV / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Med-VQAモデルは現在、言語的事前情報やデータセットのバイアスに頼る傾向があり、微妙な視覚的証拠に十分注意できず、臨床上の信頼性を損ねる可能性がある。
- InViCは、Cue Tokens Extraction(CTE)モジュールを備えたプラグイン型フレームワークを提案し、密度の高い視覚特徴を質問条件付きの少数の手掛かりトークンへ蒸留して、LLMの回答を導く。
- 手掛かりボトルネックのアテンションマスクを用いた二段階のファインチューニング戦略は、生の視覚入力を迂回させるのを防ぎ、徐々に標準の注意機構を回復して、視覚トークンと手掛かりトークンの共同利用を学習する。
- このフレームワークは、VQA-RAD、SLAKE、および ImageCLEF VQA-Med 2019 の複数のMLLMに対して評価され、ゼロショットおよびLoRAのベースラインを上回る。
- 結果は、意図を認識した視覚キューが、Med-VQAシステムの信頼性と実用的な有効性を向上させ得ることを示している。)