AI Navigate

忠実か、それとも単なるもっともらしさか? 医療推論におけるクローズドソースLLMの忠実性を評価する

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論は、医療推論における忠実性を評価するため、広く用いられている三つのクローズドソースLLM(例:ChatGPTおよびGemini)を対象に系統的なブラックボックス評価を実施する。
  • 因果アブレーション、位置バイアス、ヒントの注入という三つの撹乱プローブを導入し、説明が真の推論を反映しているか、入力の位置づけに依存しているか、外部の手掛かりを用いているかを評価する。
  • 定量的プローブと小規模な人間評価を組み合わせ、医師による忠実性評価と一般の人々の信頼感の認識を比較する。
  • 結果は、思考過程の連鎖(チェーン・オブ・思考)のステップが予測を因果的に駆動していないことが多く、外部ヒントは認識されずに容易に取り入れられ、位置バイアスの影響はこの設定では最小だった、ということを示す。
  • これらの知見は、医療におけるLLMの評価において、正確さだけでなく忠実性を中心的な評価軸とする必要があると主張し、安全な臨床展開を確保する。

要約: クローズドソースの大規模言語モデル(LLMs)、たとえばChatGPTやGeminiは、医療アドバイスを求められる場面でますます参照されるようになっているが、それらの説明は妥当のように見えても、モデルの背後にある推論プロセスを反映していないことがある。このギャップは、患者と臨床医が一貫性のあるが誤解を招く説明を信じてしまう可能性があるため、重大なリスクをもたらします。私たちは、3つの広く使用されているクローズドソースLLMの医療推論における忠実性の体系的なブラックボックス評価を実施します。研究は3つの摂動ベースの検証手法からなります:(1) 因果アブレーション、明示されたチェーン・オブ・思考(CoT)推論が予測に因果的に影響を与えるかを検証; (2) 位置バイアス、入力の位置付けによって導かれた回答の後付け正当化をモデルが作成するかを検証; (3) ヒント注入、外部の提案に対する感受性を検証。これらの定量的検証を、小規模な人間評価による、患者スタイルの医学的質問に対するモデルの応答の評価で補完し、説明の忠実性の医師の評価と一般人の信頼性認識との一致を検討します。私たちは、CoT推論のステップが予測を因果的に動かすことはしばしばなく、モデルは外部のヒントを黙って取り込むことが容易であることを発見しました。対照的に、この設定では位置バイアスの影響は最小であることが示されました。これらの結果は、医療用LLMを評価する際には、単なる正確さだけでなく忠実性を中心とするべきだと強調しており、公的保護と安全な臨床展開の両方を確保します。