不確実性を見通す:推論キャリブレーションによる長文生成の事実性向上

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 4つの長文事実性ベンチマークに関する実験により、一貫した事実性の改善が示されており、伝記(Biography)生成では主張レベルの正確性が最大39.9%向上するなど、さらにキャリブレーションも改善され(FactBenchでAUROCが16.0%向上)、事実性が高まっている。