知っていることだけを言う:長文の事実性のためのキャリブレーション対応生成

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長文生成における幻覚を、推論と最終回答の結びつき方に着目して改善することを目的としており、多段のステップで誤りが累積しやすい点を扱っています。
  • 「探索」と「コミット(確約)」を切り離す「探索—コミット脱結合」アプローチを提案し、慎重な回答と情報選択のより細かな制御を可能にします。
  • 提案手法のCalibration-Aware Generation(CAG)では、途中の推論にキャリブレーション済みの信頼性推定を付与し、最終出力では信頼できる内容を優先することで事実性を高めます。
  • 5つの長文事実性ベンチマークと複数のモデルファミリーで評価し、事実性が最大13%向上し、デコード時間が最大37%短縮されることを示しています。
  • 本研究は、探索とコミットを切り離すことが、信頼性の高い自己認識的な生成システムへの有力な方向性であると主張しています。

要旨: 大規模推論モデルは複雑なタスクにおいて強力な性能を示す一方で、幻覚を起こしやすいままです。特に、長文生成では誤りが推論ステップをまたいで累積するためです。事実性(factuality)を改善する既存の手法には、棄権(abstention)や事実性駆動の最適化がありますが、これらはいずれも
\emph{結合された探索-コミットメント(coupled exploration-commitment)} パラダイムに従っています。そこでは、中間推論が無条件に最終出力へ伝播されるため、情報の選択と統合に関するきめ細かな制御が制限されます。本論文では、知識の探索と最終的なコミットメントを切り離す
\textbf{探索-コミットメント分離(Exploration-Commitment Decoupling)} パラダイムを提案します。このパラダイムにより、モデルは「注意深く回答しながら」意識をもって探索できるようになります。提案を
\textbf{校正(Calibration)を考慮した生成(Calibration-Aware Generation: CAG)} により具体化します。CAGは、中間推論を校正済みの信頼性推定値で補強し、最終出力では信頼できる内容を優先することで、モデルにエンドツーエンドの校正を考慮した生成能力を与えるフレームワークです。5つの長文の事実性ベンチマークおよび複数のモデルファミリにおいて、CAGは事実性を最大13%向上させる一方で、デコード時間を最大37%削減します。総じて、本研究は、より信頼性の高い長文生成に向けた原理的なアプローチとして、分離(decoupling)を示し、信頼でき、かつ自己を認識した(self-aware)生成システムに向けた指針を提供します。

知っていることだけを言う:長文の事実性のためのキャリブレーション対応生成 | AI Navigate