MedObvious：臨床トリアージによってVLMにおける医療モラベックのパラドックスを露呈する

要旨: 画像言語モデル（VLM）は、医療レポート生成や視覚質問応答のようなタスクにますます用いられています。しかし、診断用の文章が流暢であることは、安全な視覚理解を保証しません。臨床実践では、解釈は事前の診断前サニティチェックから始まります。すなわち、入力が読み取り可能であることを検証する（適切なモダリティと解剖、もっともらしい視点と向き、そして明らかな完全性違反がないこと）です。既存のベンチマークの多くはこのステップが解決済みであることを前提としており、その結果、重要な失敗モードを見落としています。すなわち、モデルは入力が矛盾していたり無効であったとしても、もっともらしい叙述を生成し得るのです。我々は、1,880タスクからなるベンチマーク MedObvious を提案します。これは、小さなマルチパネル画像セットにおけるセット単位の整合性能力として入力検証を切り出すものです。モデルは、いずれかのパネルが期待されるコヒーレンス（整合性）に違反していないかを特定する必要があります。MedObvious は5つの段階的ティアをカバーしており、基礎的な向き／モダリティの不一致から、臨床的に動機づけられた解剖／視点の検証、トリアージ型の手がかりまでを含みます。また、インターフェースをまたいだロバスト性を評価するための5つの評価フォーマットを備えています。17種類の異なるVLMを評価したところ、サニティチェックは依然として信頼できません。いくつかのモデルは正常（ネガティブコントロール）入力に対して異常を幻覚し、大きな画像セットへスケールすると性能が低下し、また、複数選択式と自由記述式の設定の間で測定された精度が大きく異なることが分かりました。これらの結果は、診断前の検証が医療VLMでは未解決であり、配備前に安全性に直結する独立した能力として扱うべきであることを示しています。

MedObvious：臨床トリアージによってVLMにおける医療モラベックのパラドックスを露呈する

要点

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer