不確実性を見通す:推論キャリブレーションによる長文生成の事実性向上
arXiv cs.CL / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 4つの長文事実性ベンチマークに関する実験により、一貫した事実性の改善が示されており、伝記(Biography)生成では主張レベルの正確性が最大39.9%向上するなど、さらにキャリブレーションも改善され(FactBenchでAUROCが16.0%向上)、事実性が高まっている。




