AI推論を測定する：研究者向けガイド

arXiv cs.AI / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、言語モデルにおける「推論」の評価は、最終回答の正確さだけでなく、適応的な多段探索の兆候に基づくべきだと主張している。
著者らは、推論を評価上の観点から、途中のステップを選択し、入力依存の条件に従って停止するものとして定義し、それを探索に類似した手続きとして形式化している。
スケーラブルなアーキテクチャにおける単一のフォワードパスでは可変長の計算が構造的に実現しにくいと述べており、そのため中間デコードや推論の痕跡の外部化が評価インターフェースとして有効だとしている。
最終回答の正確さだけでは、最先端モデルが個々の解答に至る過程を診断・デバッグする力が乏しいため不十分だと論じている。
その上で、中間推論トレースの「忠実性」と「妥当性」を主要な評価対象とするプロセスベース評価への転換を提案している。

概要: 本論文では、言語モデルにおける推論を評価するための指針を研究者向けに提示し、推論は最終回答の正確さだけでなく、適応的な多段探索の証拠によって評価されるべきだという主張を展開します。評価を重視した定義のもとでは、推論とは、中間ステップを選択し、入力に依存した条件に従って停止することを必要とし、これを探索のような手続きとして形式化します。さらに、拡張可能なアーキテクチャにおける単一の順方向パスは、このような可変の深さをもつ計算を実現する点で構造的に制約を受けることを示し、そのために、適切な評価インターフェースとして、中間デコードや推論の痕跡（トレース）を外部化することが動機づけられます。私たちの議論の中核は、最終回答の正確さだけでは推論の測度として不十分であるという点です。なぜなら、それは最前線のモデルにおける個々の解を生成する根本的なプロセスを診断したりデバッグしたりする手がかりをほとんど与えないからです。したがって私たちは、プロセスに基づく評価への転換を提案します。この枠組みでは、推論は中間推論トレースの忠実性と妥当性によって、主要な評価対象として評価されます。