文脈整合型ビジョン・ランゲージモデルによる責任あるマルチモーダル医療推論に向けて

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、医療向けビジョン・ランゲージモデルが支配的なモダリティに過度に依存すると、流暢ではあるが根拠の乏しい診断的結論を導き得ると主張している。
  • そこで、文脈整合型のマルチモーダル推論フレームワークを提案し、凍結したVLMに対して構造化された文脈シグナル(例:レイディオミクス統計、説明可能性アクティベーション、語彙に根ざした意味手がかり)を付加し、回答前に異種の臨床エビデンス間での一致を検証する。
  • 出力は自由形式の文章から、支持根拠、較正された不確実性、限界、安全に関する注記を含む構造化レポートへと移行する。
  • 胸部X線データセットでの実験では、識別性能が改善(AUC 0.918→0.925)し、幻覚的なキーワードが減少(1.14→0.25)し、推論の説明文が短縮(19.4→15.3語)した一方で、過度の自信は増加しない。
  • CheXpert などのクロスデータセット結果は、各モダリティの情報量がモデルの推論挙動に影響することを示しており、信頼できる医療マルチモーダル推論のために文脈整合が重要であることを強調している。