MedOpenClaw: 手続き可能(監査可能)な医用画像エージェントが未キュレーションの完全検査(full studies)に対して推論する

arXiv cs.CV / 2026/3/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、医療分野の視覚言語モデルの現在の評価が、臨床実務を過度に単純化していると主張している。具体的には、キュレーションされた2D画像を用いるのではなく、エージェントにフルの3D・複数シーケンス/複数モダリティの検査を探索させる必要があるという点を指摘する。
  • MEDOPENCLAWと呼ばれる、VLMベースのエージェントが3D Slicerのような標準的な医療ビューア/ツール内で動的に動作できる、監査可能な実行基盤を提案する。
  • MEDFLOWBENCHを導入し、複数シーケンスの脳MRIおよび肺CT/PETを対象とした「完全検査」ベンチマークを提示する。ここでは、ビューアのみ・ツール使用・オープン手法という設定間でエージェント的(agentic)性能を比較する。
  • 初期結果では、性能に関する逆説が示される。すなわち、強力なLLM/VLMはビューアのみのモードでは基本的な検査ナビゲーションを完了できる一方、専門的な支援ツールへのアクセスを与えると性能が低下する。その原因は、精密な空間的グラウンディングの不足にあるとされる。
  • 著者らは、MEDOPENCLAWおよびMEDFLOWBENCHを、監査可能でインタラクティブな医用画像エージェントを構築・評価するための、再現可能な基盤として位置づけている。

Abstract

現在、医用画像タスクにおける視覚言語モデル(VLM)の評価は、事前に選定された2D画像に依存することで臨床現実を過度に単純化しています。これは、キュレーションに大きな手作業を要するためです。この設定では、実世界の診断における中核的な課題を見落としています。すなわち、真に臨床で役立つエージェントは、複数のシーケンスまたはモダリティにまたがる3Dボリューム全体を能動的にナビゲートしてエビデンスを収集し、最終的には最終判断を支援する必要があります。そこで本研究では、MEDOPENCLAWという、VLMが標準的な医療ツールやビューア(例:3D Slicer)の中で動的に動作できるようにする、監査可能なランタイムを提案します。このランタイムの上に、マルチシーケンス脳MRIと肺CT/PETを対象とする、フルスタディの医用画像ベンチマークMEDFLOWBENCHを導入します。MEDFLOWBENCHは、ビューアのみ、ツール利用、オープン方式の3つのトラックにわたって、医療エージェントの能力を体系的に評価します。初期結果から重要な洞察が得られました。すなわち、最先端のLLM/VLM(例:Gemini 3.1 ProおよびGPT-5.4)は、ビューアをうまくナビゲートしてスタディ単位の基本的なタスクを解けますが、精密な空間的基盤(空間グラウンディング)の欠如により、専門的なサポートツールへのアクセスが与えられると、逆説的に性能が低下します。静的画像の知覚と、インタラクティブな臨床ワークフローとのギャップを埋めることで、MEDOPENCLAWおよびMEDFLOWBENCHは、監査可能なフルスタディ型医用画像エージェントを開発するための、再現可能な基盤を確立します。