GAZE:ビューアーレベルのツールと文献検索による、稀少な脳MRIを対象としたエージェント型ゼロショット評価

arXiv cs.LG / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • GAZEは、放射線科医のように反復的な画像閲覧ツール(ズーム、ウィンドウイング、コントラスト、エッジ検出など)と、文献・画像の検索ツール(PubMedとOpen-i)を呼び出して、医療用VLMを動作させる枠組みです。
  • GAZEは、構造化された出力をスキーマで検証し、ツール呼び出しの全トレースを記録することで、監査性と信頼性を重視しています。
  • NOVAベンチマーク(脳MRI 906症例、稀少な神経疾患281種)で、GAZEは病変の局在化においてIoU 0.3で58.2 mAP、画像のみの共同プロトコル下で診断のTop-1精度は34.9%を達成し、タスク固有の微調整は行っていません。
  • ツールを使う前から、構造化プロンプトとスキーマ検証がGemini 2.0 Flashのベースライン(20.2→29.4 mAP@0.3)を改善しており、枠組み設計そのものが重要な実験変数であることが示されています。
  • ツール利用は稀少な病態で特に大きく効果が出る一方、検索のアブレーションでは、診断の改善が局在化の低下と同時に起こり得るモデル依存のトレードオフが明らかになり、診断・局在化・キャプションを同時に評価すべきことを裏付けています。

概要: 画像とテキストを扱うビジョン言語モデル(VLM)は、1回の順伝播で画像を読み取りテキストを生成しますが、放射線科医は通常、画像を複数回にわたって検査し、レポートを書く前に文献を参照します。私たちはGAZE(Grounded Agentic Zero-shot Evaluation)を提案します。これは、医療VLMがビューアーレベルのツール(ズーム、ウィンドウイング、コントラスト、エッジ検出)と、米国国立医学図書館に裏付けられた2つの検索ツール(医療文献はPubMed、放射線画像はOpen-i)を呼び出すことで、このような反復的な作業の仕方を実現できる枠組みです。さらに、構造化された出力はスキーマに対して検証され、監査可能性のために完全なツール呼び出しの記録(トレース)を保存します。NOVAは、281の希少な神経疾患をカバーする906件の脳MRI症例からなるベンチマークであり、GAZEは、病変の局在化について、intersection-over-union(IoU)0.3で平均適合率(mAP)58.2を達成し、また画像のみからキャプション、診断、局在をスコア付けする共同プロトコルの下で、トップ1の診断精度34.9%を得ます。タスク固有の微調整は行っていません。いかなるツールを使用する前でも、構造化プロンプトとスキーマで検証された出力が、公開されているGemini 2.0 Flashのベースライン(20.2から29.4 mAP@0.3)をすでに上回っているため、枠組み設計そのものが実験上の変数になります。ツールの使用は、希少な病理に対して不釣り合いに大きな効果をもたらします。具体的には、3例以下のデータで診断されるケースで、IoU > 0.3の症例割合が17%から58%へ、一般的な疾患(\geq10件)では25%から68%へと上昇し、改善はエンゲージメントの増加と連動します(Gemini 3 Flash: Cohen's d = 0.79、症例あたり11.8回のツール呼び出し;Gemini 2.0 Flash: ツール使用は8.2%の症例のみで、有意な利益なし)。検索のアブレーション結果はさらに、診断における向上が局在化の低下と同時に起こり得るという、モデル依存のトレードオフも明らかにしており、医療VLMにおける診断、局在、キャプションの共同評価を支持します。