概要: 信頼できる臨床AIには、性能向上が表層的なアーティファクトではなく、真に証拠統合に基づくものであることが必要です。本研究では、2つの臨床神経画像コホートにおける二値分類で、12のオープンウェイト視覚言語モデル(VLM)を評価します: extsc{FOR2107}(情動障害)および extsc{OASIS-3}(認知低下)。両データセットはいずれも、信頼できる個人レベルの診断信号を持たない構造MRIデータを付随しています。これらの条件下では、より小規模なVLMが、神経画像コンテキスト導入によって最大58 extbackslash%のF1向上を示し、蒸留モデルが、桁違いに大きい対応モデルと競合可能になることがわかります。対照的な信頼度分析により、画像データが存在するかどうかにかかわらず、タスクプロンプト内で単に
\emph{MRIの利用可能性を}
\emph{言及する} だけで、この変化の70-80 extbackslash%を説明できることが明らかになりました。これは、我々が
\emph{scaffold effect(足場効果)} と呼ぶ、モダリティ・コラプス(崩壊)の領域固有の事例です。専門家による評価では、あらゆる条件において神経画像に根拠づけた尤度(正当化)の捏造が確認され、さらに選好の整合も観察されました。一方で、MRI参照行動を排除すると、両条件ともランダムな基準へと収束しました。本研究の結果は、表層的評価がマルチモーダル推論の不十分な指標であることを示しており、臨床現場におけるVLMの導入に直接的な含意を持ちます。
足場効果(Scaffold Effect): プロンプトの枠組みが臨床VLM評価における見かけのマルチモーダル向上を駆動する仕組み
arXiv cs.AI / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、FOR2107 と OASIS-3 における二値の神経画像分類で、12 のオープンウェイト臨床ビジョン言語モデルを評価する。ここでは、構造MRIに個々のレベルで信頼できる診断的シグナルは存在しない。
- プロンプトに「神経画像コンテキスト(neuroimaging context)」を追加すると、測定される F1 スコアが最大 58% 向上し得ることを見出し、さらに、蒸留された小型モデルであっても、はるかに大きなモデルと競り合うようになるケースがある。
- 対照的な信頼度(confidence)分析により、「MRI が利用可能であること」へ単にプロンプト内で言及するだけで、観測された改善の 70〜80% を説明できることが示される。画像が提供されない場合でも同様であり、著者らはこれを「足場効果(scaffold effect)」と呼んでいる。
- 専門家によるレビューでは、多くの条件下でモデルが MRI に基づく根拠(justification)を捏造することが示される。また、MRI参照の振る舞いが排除されると、両設定における性能がランダム基準値に向けて崩壊する。
- 著者らは、表層的なマルチモーダルのベンチマークが、真にマルチモーダルな推論を過大評価し得ると結論づけており、信頼できる臨床導入に向けた評価への懸念を提起している。



