FAITH：信頼性と誠実さを統合することで実在性（factuality）を整合させる

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、信頼性（知識の保有）と誠実さ（不確実性下での振る舞い）を共同でモデル化することで、LLMの事実性（factuality）を改善するためのポストトレーニング枠組み「FAITH」を提案する。
数値の不確実性スコアのみに頼るのではなく、FAITHはLLMの出力から自然言語による不確実性シグナルを生成し、それを「知識状態の四象限（knowledge state quadrant）」に変換する。そして、このより豊かな意味情報を学習の駆動に用いる。
FAITHは、回答の正確性と、不確実性に関連するシグナルの両方を考慮したPPOベースの報酬関数によってLLMを微調整する。
根拠が弱い応答への対処として、本手法は検索拡張（retrieval-augmented）モジュールを追加し、関連する外部の文章を取得することで、モデル内部の知識と外部の証拠との整合を改善する。
知識集約型ベンチマーク4つでの実験では、事実精度と真実性の両方で改善が報告されており、従来の不確実性に着目した手法よりも、事実性の整合が良好であることを示している。

要旨: 大規模言語モデル（LLM）は、対応する知識を持っていたとしても、事実に反する内容を生成し得ます。これは、信頼性を重大に損ないます。既存のアプローチでは、学習中のQAプロンプトに不確実性を組み込むことでこれを緩和しようとしますが、これらの数値スコアは、LLMがその内部における信頼性（trustworthiness）や誠実さ（honesty）という状態を適切に理解するための、十分な意味的豊かさを備えていません。その結果、事実性との整合が不十分になります。私たちは、外部知識と自然言語の不確実性シグナルを統合することで事実性を整合させる、事後学習フレームワークであるFAITH（Factuality Alignment through Integrating Trustworthiness and Honestness）を提案します。具体的には、LLMの出力から信頼度スコアと意味エントロピーを計算し、それらを、モデルの内部的な知識の保有（trustworthiness）と応答行動（honestness）を自然言語で記述する知識状態の四象限にマッピングすることにより、学習データセットを拡張します。この強化されたデータに基づいて、正しさと不確実性シグナルの両方を考慮する報酬関数を設計し、近似ポリシー最適化（Proximal Policy Optimization: PPO）アルゴリズムを用いてLLMを微調整します。また、十分に根拠づけられていない応答をさらに緩和するために、関連する外部の文章を取得する検索拡張（retrieval-augmented）モジュールを設計し、内部と外部の知識表現間の整合性を改善します。知識集約型ベンチマーク4つに対する大規模な実験により、FAITHがLLMの事実的正確性と真実性を高めることを示します。