Filtered Reasoning Score: モデルの最も確信の高いトレースにおける推論品質の評価
arXiv cs.AI / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMを答えの正しさだけで評価すると、誤った推論や記憶(暗記)によって正しい結論に到達してしまう場合などの重要な差異を見落とし得ると主張する。
- 推論トレースの品質を、忠実性(faithfulness)、首尾一貫性(coherence)、有用性(utility)、事実性(factuality)といった次元を用いてスコアリングする新しい方法を提案し、ベンチマーク上の精度が似通ったモデル同士をより適切に区別することを目指す。
- 多数の候補トレースを平均することによって生じる問題(特に長期的な設定において)を避けるため、著者らは、最も確信の高いトレースの上位K%のみを評価するFiltered Reasoning Score(FRS)を導入する。
- 実験により、FRSは標準的な精度指標では区別できないように見えるモデルを分離でき、さらにFRSが他の推論ベンチマークにおける性能(精度と推論品質の双方)と相関することが示される。
- 著者らは、提案した指標の再現性を支援するためのオープンソースの評価コードベースを公開する。




