信頼度は1ターン先ではなく、より深い(多ターン)文脈に応じて較正されるべきだ
arXiv cs.CL / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、高リスクの多ターン用途において、LLMの信頼度較正は静的な単発(ワンターン)の性質として扱うのではなく、会話履歴に依存する動的な問題として捉える必要があると主張する。
- 多ターン較正のためのタスクを導入し、較正がターンをまたいでどのように変化するかを測る新しい指標ECE@Tを提示する。さらに、ユーザーフィードバックが多ターン較正を悪化させ得ることを示す。
- 較正を改善するために、著者らはMTCalを提案する。これは、過去の対話に条件付けした代理の較正目標を用いてECE@Tを最小化する。
- また、多ターン対話において較正済みの信頼度を用いて応答の事実性と一貫性を高めるデコーディング戦略ConfChatも提示する。
- 実験では、MTCalが多ターン較正において強力で一貫した性能を示し、ConfChatは多ターンモデル全体の品質を維持または改善することが報告されている。




