同意するためか、正しいためか？医療ビジョン言語モデルにおけるグラウンディングと迎合のトレードオフ

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、医療ビジョン言語モデルの頑健性を、幻覚（hallucination）と迎合（sycophancy）の2つの失敗モードに対して調査し、幻覚を起こしにくいモデルほど迎合的であるというグラウンディング–迎合のトレードオフを見出す。
6つのVLM（汎用と医療専門）を、3つの医療VQAデータセットで1,151件のテストケースにわたって評価したところ、最も圧力（プレッシャー）に耐性の高いモデルほど幻覚が多く、一方で医療専門モデルは安全性／圧力のトレードオフが異なることが示された。
これらのリスクを定量化するために、著者らは3つの指標を導入する：L-VASE（VASEのロジット空間における再定式化）、CCS（信頼度較正に基づく迎合スコア）、およびCSI（グラウンディング、オートノミー、較正を統合した臨床安全指数）。
評価対象の7〜8BパラメータのモデルはいずれもCSIが0.35を超えず、現在のモデルでは臨床用途に向けて強いグラウンディングと社会的圧力への耐性を同時に達成できないことが示唆される。
著者らは、医療VLMを臨床環境で導入する前に、グラウンディングと迎合（さらに較正／オートノミー）を共同で評価することが必要だと主張し、付随するコードも提供している。

概要: 医療領域に適応した視覚言語モデル（VLM）では、視覚質問応答（VQA）ベンチマークにおいて高い性能が示されているものの、とりわけ組み合わせた場合において、2つの重要な失敗モードである幻覚（hallucination）と迎合（sycophancy）に対する頑健性がどの程度なのかは、いまだ十分に解明されていません。私たちは、6つのVLM（汎用3つ、医療専門3つ）を3つの医療VQAデータセットで評価し、基盤化（grounding）と迎合のトレードオフを見出します。すなわち、幻覚傾向が最も低いモデルほど迎合的であり、一方で、最もストレス耐性のあるモデルは、医療専門モデルすべてよりも多く幻覚を生じさせます。このトレードオフを特徴づけるために、3つの指標を提案します。第一に、VASEの二重正規化を回避する、ロジット空間でのVASEの再定式化であるL-VASE。第二に、高い自信を伴う降伏（capitulation）を罰する、信頼度キャリブレーション済みの迎合スコアであるCCS。第三に、幾何平均を通じて基盤化、自律性、キャリブレーションを統合する統一された安全指標であるClinical Safety Index（CSI）。1,151件のテストケースにおいて、いずれのモデルもCSIが0.35を超えることはなく、評価対象の7〜8BパラメータのVLMが、社会的圧力に対して同時に十分に基盤化され頑健であることは示されません。これらの結果は、臨床利用の前に両特性を併せて評価することが必要であることを示唆しています。コードは https://github.com/UTSA-VIRLab/AgreeOrRight で公開されています

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

認識が不可欠、AIに読み取らせてはいけない情報

日経XTECH

同意するためか、正しいためか？医療ビジョン言語モデルにおけるグラウンディングと迎合のトレードオフ

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈 フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」