MedObvious:臨床トリアージによってVLMにおける医療モラベックのパラドックスを露呈する

arXiv cs.CL / 2026/3/25

💬 オピニオン

要点

  • 本論文は、視覚言語モデルが安全な視覚理解を実際には行わないにもかかわらず、流暢で医学的にもっともらしい文章を生成できると主張している。特に、臨床医が用いる最初の「事前診断(pre-diagnostic)」の入力検証ステップに失敗する点が挙げられる。

要旨: 画像言語モデル(VLM)は、医療レポート生成や視覚質問応答のようなタスクにますます用いられています。しかし、診断用の文章が流暢であることは、安全な視覚理解を保証しません。臨床実践では、解釈は事前の診断前サニティチェックから始まります。すなわち、入力が読み取り可能であることを検証する(適切なモダリティと解剖、もっともらしい視点と向き、そして明らかな完全性違反がないこと)です。既存のベンチマークの多くはこのステップが解決済みであることを前提としており、その結果、重要な失敗モードを見落としています。すなわち、モデルは入力が矛盾していたり無効であったとしても、もっともらしい叙述を生成し得るのです。我々は、1,880タスクからなるベンチマーク MedObvious を提案します。これは、小さなマルチパネル画像セットにおけるセット単位の整合性能力として入力検証を切り出すものです。モデルは、いずれかのパネルが期待されるコヒーレンス(整合性)に違反していないかを特定する必要があります。MedObvious は5つの段階的ティアをカバーしており、基礎的な向き/モダリティの不一致から、臨床的に動機づけられた解剖/視点の検証、トリアージ型の手がかりまでを含みます。また、インターフェースをまたいだロバスト性を評価するための5つの評価フォーマットを備えています。17種類の異なるVLMを評価したところ、サニティチェックは依然として信頼できません。いくつかのモデルは正常(ネガティブコントロール)入力に対して異常を幻覚し、大きな画像セットへスケールすると性能が低下し、また、複数選択式と自由記述式の設定の間で測定された精度が大きく異なることが分かりました。これらの結果は、診断前の検証が医療VLMでは未解決であり、配備前に安全性に直結する独立した能力として扱うべきであることを示しています。