FACT-E: 信頼できるチェーン・オブ・ソート推論のための因果性に着想した評価

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Chain-of-Thought(CoT)は、もっともらしい一方で、忠実でない中間ステップを用いている場合があり、コヒーレンス・バイアスの影響により既存の自己評価手法が信頼できなくなっている。
  • FACT-Eは、制御された摂動を用いることで、チェーン内部の忠実性(真のステップ間の依存関係)をより確実に測定する、因果性に着想した評価アプローチを導入する。
  • この手法は、チェーン内部の忠実性とCoTから回答への整合性を共同で最適化することで、より信頼できる推論の軌跡を選択する。
  • GSM8K、MATH、CommonsenseQAに関する実験により、FACT-Eが推論の軌跡の選択を改善し、インコンテキスト学習のエグザンプラを強化することが示される。
  • FACT-Eはさらに、ノイズのある条件下でも欠陥のある推論をより確実に検出できるため、信頼できるLLM推論のための頑健な指標を提供する。