概要: 医療用大規模言語モデル(LLM)における幻覚(ハルシネーション)は、安全性に関わる重大な問題であり続けています。特に、利用可能な根拠が不十分であったり、根拠同士が矛盾している場合に顕著です。本研究では糖尿病網膜症(DR)の意思決定設定においてこの問題を検討し、網膜の評価記録に整合したエビデンスに基づくベンチマークであるRETINA-SAFEを導入します。RETINA-SAFEは12,522サンプルから構成されます。RETINA-SAFEは、3つの根拠—関係タスクに整理されています:E-Align(根拠と整合的)、E-Conflict(根拠と矛盾的)、E-Gap(根拠が不十分)。さらに、2段階のホワイトボックス検出フレームワークであるECRT(Evidence-Conditioned Risk Triage)を提案します。第1段階では安全/危険のリスク選別を行い、第2段階では危険例を、矛盾駆動のリスクと根拠ギャップのリスクに洗練します。ECRTは、CTX/NOCTX条件下での内部表現とロジットのシフトを活用し、堅牢な学習のためにクラスバランスド学習を行います。複数のバックボーンにわたる、エビデンスでグルーピングした(患者が非重複とはしていない)分割のもとで、ECRTは第1段階のリスク選別において強い性能を示し、サブタイプの帰属を明示します。外部の不確実性および自己整合性のベースラインに対して、第1段階のバランス精度を+0.15〜+0.19改善し、最も強力な適応済み教師ありベースラインに対しては+0.02〜+0.07改善します。また、第1段階のバランス精度において、単一段階のホワイトボックス除去(アブレーション)よりも一貫して上回ります。これらの知見は、網膜のエビデンスに根ざしたホワイトボックスの内部シグナルが、解釈可能な医療用LLMのリスク選別への実用的な道筋となり得ることを支持しています。
網膜の証拠から安全な意思決定へ:医療LLMにおける幻覚リスクのトリアージのためのRETINA-SAFEとECRT
arXiv cs.AI / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、証拠が不十分または矛盾している可能性がある糖尿病性網膜症の意思決定設定に焦点を当て、医療LLMにおける幻覚の安全性課題に取り組む。
- 12,522サンプルからなる網膜エビデンスのベンチマーク「RETINA-SAFE」を導入し、3つのエビデンス関係タスク(E-Align, E-Conflict, E-Gap)に整理する。
- 著者らは、白箱型の二段階フレームワーク「ECRT(Evidence-Conditioned Risk Triage)」を提案し、まず症例をSafe(安全)/Unsafe(危険)にトリアージし、その後Unsafe症例を矛盾駆動型とエビデンスギャップ型のリスクに分類する。
- ECRTは、CTX/NOCTX条件下での内部表現とlogitシフトを用い、クラスバランス付き学習を行う。さらに、エビデンスでグループ化した(患者間で分離したのではない)分割により、複数のモデル・バックボーンにわたって頑健性を評価する。
- 結果として、Stage-1のバランス精度が向上(外部の不確実性・self-consistencyベースラインに対して+0.15〜+0.19、最も強力に適応した教師ありベースラインに対して+0.02〜+0.07)し、解釈可能でエビデンスに根差したリスクトリアージが実用的な方向性であることを示す。
