EvidenceRL: 信頼できる言語モデルのエビデンス整合性を強化する

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

EvidenceRLは、訓練中にエビデンス遵守を強制する強化学習フレームワークを導入し、LLMの幻覚を減らすことを目指す高リスク領域を対象としています。
本フレームワークは、根拠づけ（取得したエビデンスと文脈との含意）と正確さ（参照回答との一致）を評価し、生成モデルをGroup Relative Policy Optimization（GRPO）を用いて最適化します。
心臓疾患の診断では、F1@3は37.0から54.5へ、根拠づけ（G_max@3）は47.6から78.2へ改善し、幻覚は約5分の1に減少し、エビデンスに裏づけられた診断は31.8%から61.6%へ増加しました。
法的推論では、8Bモデルで忠実度が32.8%から67.6%へ向上し、領域を跨いで一貫した改善を示しました。
著者らはGitHubでコードをオープンソースとして公開しています。

要旨: 大規模言語モデル（LLMs）は流暢ですが、幻覚を起こしやすく、信じられるように見える回答を生み出す一方で、利用可能な証拠によって裏付けられていません。この欠陥は、検証可能な情報によって判断を正当化する必要がある高リスク領域で特に問題となります。我々は \\textbf{EvidenceRL} を導入します。これは訓練中の証拠遵守を強制する強化学習フレームワークです。EvidenceRL は、根拠づけ（取得した証拠と文脈を用いた含意）と正確さ（参照回答との一致）を評価し、Group Relative Policy Optimization (GRPO) を用いて生成器を最適化します。心臓診断と法的推論という二つの高リスク領域を横断して評価し、EvidenceRL は一貫して証拠の根拠づけと忠実度を改善しつつ、タスク精度を犠牲にしません。心臓診断では、Llama-3.2-3B で F1@3 が 37.0 から 54.5 に増加し、根拠づけ（ $G_{\max}@3$ ）は 47.6 から 78.2 に上昇します；幻覚はほぼ 5 $\times$ 低下し、証拠に基づく診断は 31.8\% から 61.6\% に増加します。法的推論では、Llama-3.1-8B で忠実度が 32.8\% から 67.6\% に向上し、領域を跨いだ一貫した振る舞いの変化を示しています。私たちのコードは https://github.com/Wizaaard/EvidenceRL.git にオープンソースとして公開されています。