知識ガイド付き空間プロンプトによる医療ビジュアルグラウンディングの強化

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、医療ビジュアルグラウンディング（MVG）における重要な弱点に取り組む。すなわち、視覚言語モデルは診療報告書のフレーズを画像の領域に意味的に対応付けることはできるが、局在（ローカライズ）のための十分な空間的精度を欠くことが多い。

要旨: 医療ビジュアル・グラウンディング（MVG）は、自由形式の放射線レポートから診断に関連するフレーズを特定し、それに対応する領域を医用画像上で局在化することを目的とする。これにより、臨床的意思決定を支える解釈可能な視覚的根拠を提供する。近年の視覚言語モデル（VLM）は有望なマルチモーダル推論能力を示しているものの、そのグラウンディングは空間的な精度が依然として不十分である。これは主として、潜在埋め込みのみに依存している際に、明示的な局在化の事前知識（localization priors）が欠けていることに起因する。本研究では、この制約を注意（attention）の観点から分析し、VLMにおけるMVGのための知識事前（knowledge-prior）かつグローバル・ローカル注意強化フレームワークであるKnowMVGを提案する。これは、デコーディング中に空間認識を明示的に強化する。具体的には、フレーズに関連する医療知識をコンパクトな埋め込みとして符号化する、知識強化型プロンプト戦略を提示する。加えて、粗いグローバル情報と洗練されたローカルな手掛かりを共同で活用して、正確な領域局在化を導くグローバル・ローカル注意を併せて設計する。この設計は、追加のテキスト推論に伴うオーバーヘッドを導入することなく、高度な意味理解と精緻な視覚認識とを橋渡しする。4つのMVGベンチマークに対する大規模な実験により、提案するKnowMVGが既存手法を一貫して上回り、先行する最先端手法に対してAP50で3.0%、mIoUで2.6%の改善が得られることを示す。定性的評価およびアブレーション研究によっても、各コンポーネントの有効性がさらに検証される。