信頼できる医療VQAのためのフロンティア視覚言語モデル監査:グラウンディング失敗、フォーマット崩壊、ドメイン適応

arXiv cs.AI / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、5つの最新のフロンティア/グラウンディング対応視覚言語モデルを医療VQAで監査し、解剖学的・病理学的ターゲットの局在化が全モデルで一様に弱いこと(最良でも平均IoUが0.23にとどまる)に加え、臨床的に危険な左右(laterality)の混同が見られると報告している。
  • 同一モデルで「先に局在化し、その後に回答する」自己グラウンディングの二段階パイプラインでは、あらゆるモデルでVQA精度が低下し、その要因として不正確な局在化と、二段階プロンプトに起因する深刻なフォーマット順守/パース失敗(GeminiとGPT-5でVQA-RAD上のパース失敗が70%〜99%)が挙げられている。
  • 予測バウンディングボックスをグラウンドトゥルースの注釈に置き換えると、VQA精度は回復・改善し、失敗の本質が質問分解の手法ではなく知覚(局在化)モジュールにあることを示している。
  • 追補としてドメイン適応を目的に、Med-VQAの結合学習データでQwen 2.5 VLを教師あり微調整したところ、比較可能な手法の中で最良のSLAKEオープンエンド想起(85.5%)が得られたが、これが信頼性ボトルネック(知覚・信頼性の課題)を完全に解消できるかは今後の検討課題として残されている。
  • 総じて、臨床現場でVLMを信頼できる形で運用するうえで、グラウンディング品質(境界ボックスの局在化信頼性)が主要なボトルネックだと結論づけている。