逐語的要約を超えて：医療SOAPノート評価における「幻覚」を再定義する

arXiv cs.AI / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

医療用LLMの評価では、一般的に自動メトリクスや「LLM-as-judge」などの手法が、発話トランスクリプトに明示されていない情報をすべて「幻覚」と見なしてしまいがちです。
研究では、指摘された「幻覚」の多くが、同義語の正規化、診察所見の抽象化、診断推論、ガイドラインに沿ったケア計画といった臨床的に妥当な変換に対応していることが示されます。
医療上の推論に合わせて評価基準を調整する（キャリブレーションされたプロンプトと、医療オントロジーに基づくリトリーバルの活用）ことで、評価結果が大きく変わると報告されています。
逐語（レキシカル）ベースの評価では平均の幻覚率が35%とされる一方、推論を考慮した評価では9%まで低下し、本当に安全上の懸念に結びつくケースが残るとされています。
著者らは、現在の評価実務が正当な臨床推論を過度に罰し、真の誤りではなく評価設計のアーティファクトを測ってしまう可能性があるため、医学領域では臨床に基づく評価が必要だと主張しています。