AI Navigate

医療教科書における言語モデルの幻覚の定量化

arXiv cs.AI / 2026/3/12

📰 ニュースModels & Research

要点

  • 実験1では、医療教科書根拠のQA回答のうちLLaMA-70B-Instructが19.7%で幻覚を起こしたと報告され、プロンプトの98.8%が最大の妥当性を受け取っていた。
  • 実験2では、モデル間で幻覚率が低いことと有用性スコアの高さに整列しており(ρ = -0.71、p = 0.058)、精度と有用性のトレードオフを示唆している。
  • 臨床医は回答に対して高い一致を示した(実験1:二次重み付きκ = 0.92、実験2:τ_b = 0.06–0.18、κ = 0.57–0.61)。
  • 結果は、幻覚が医療QAにおける依然として重大な課題であることを強調し、より良い評価ベンチマークと緩和戦略の開発を促している。

要旨: 大規模言語モデルが事実に基づかず裏付けのない主張を含む回答を提供する傾向である幻覚は、緩和に向けた有効な解決策がまだ確立されていない自然言語処理の深刻な問題です。医療QAの既存のベンチマークはこの挙動を固定された証拠源に対して評価することはまれです。我々は教科書を根拠とするQAにおいて幻覚がどの程度頻繁に発生するか、また医療QAプロンプトへの回答がモデル間でどのように異なるかを問います。我々は2つの実験を行います。1つ目は、新規プロンプトを与えた場合の医療QAにおける幻覚の蔓延を決定するための、著名なオープンソース大規模言語モデル(LLaMA-70B-Instruct)の検討、2つ目は幻覚の蔓延と臨床医の回答嗜好を評価することです。提示された抜粋を用いた実験1では、LLaMA-70B-Instructが回答の19.7%で幻覚を起こしました(95%信頼区間18.6〜20.7)、一方プロンプト回答の98.8%が最大の妥当性を示しました。実験2では、モデル間で幻覚率が低いほど有用性スコアが高い傾向が見られました(ρ = -0.71、p = 0.058)。臨床医は回答に対して高い一致を示しました(実験1は二次重み付きκ = 0.92、実験2はτ_b = 0.06〜0.18、κ = 0.57〜0.61)。この結果は、幻覚が医療QAにおける重大な課題であることを強調し、より良い評価指標と緩和戦略の開発を促すことを示しています。