要旨:
多モーダル大規模言語モデル(MLLMs)の急速な進歩にもかかわらず、高リスクな臨床ソフトウェア環境において信頼性の高い視覚的グラウンディングを実行する能力は依然として十分に検討されていません。既存の GUI ベンチマークは主に分離された単一のグラウンディングクエリに焦点を当て、実世界の医療インターフェイスで必要とされる連続的でワークフローに基づく推論を見落としています。タスクは独立したステップを経て進化し、動的なインターフェイス状態を伴います。私たちは MedSPOT を導入します。臨床 GUI 環境のためのワークフロー認識付き逐次グラウンディングベンチマークです。従来のベンチマークがグラウンディングを独立した予測タスクとして扱うのとは異なり、MedSPOT は手続き的な相互作用を、構造化された空間的意思決定の連続としてモデル化します。このベンチマークは、現実的な医療ワークフローの中で、各タスクが2〜3つの相互依存するグラウンディングステップからなる216本のタスク駆動ビデオと597個の注釈付きキーフレームで構成されます。この設計は、インターフェースの階層構造、文脈依存性、および進化する条件下での微細な空間的精度を捉えます。手続き的ロバスト性を評価するため、最初の誤ったグラウンディング予測でタスク評価を終了する厳密な逐次評価プロトコルを提案します。これにより、複数のステップからなるワークフローにおける誤差伝播を明示的に測定します。さらに、臨床 GUI 環境でのモデル挙動を体系的に診断できるよう、エッジバイアス、スモールターゲット誤り、予測なし、ニアミス、大きく外れる、ツールバーの混乱などを含む包括的な故障分類を導入します。孤立したグラウンディングからワークフロー対応の逐次推論へ評価を移すことにより、MedSPOT は医療ソフトウェア環境における多モーダルモデルを評価するための現実的で安全性が重要なベンチマークを確立します。コードとデータは以下で利用可能です: https://github.com/Tajamul21/MedSPOT。
MedSPOT: 臨床GUIのワークフロー対応型逐次グラウンディングベンチマーク
arXiv cs.CV / 2026/3/23
📰 ニュースModels & Research
要点
- 本研究は評価を孤立したグラウンディングからワークフローを意識した逐次推論へと転換し、より広く普及させるため GitHub にコードとデータを公開している。

