pass@1の彼方へ：長期ホライズンのLLMエージェントのための信頼性科学フレームワーク

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、pass@1のような従来のベンチマークが主に単一試行の能力を測るのに対し、長期ホライズンのLLMエージェントに必要な信頼性（成功が反復試行やタスク期間の違いに対して一貫して達成されること）を捉えられていないと主張する。
「信頼性科学」に基づく評価フレームワークを導入し、4つの新しい指標—Reliability Decay Curve（RDC）、Variance Amplification Factor（VAF）、Graceful Degradation Score（GDS）、Meltdown Onset Point（MOP）—によって、時間経過に伴う信頼性の劣化を定量化する。
10モデルと、大規模ベンチマーク（396タスクを期間バケットとドメインで分類した23,392エピソード）にまたがる検証により、信頼性の減衰はドメインごとに層（ストラタ）化されており、急激に劣化するドメインがある一方で、比較的安定して推移するドメインもあることが示される。
著者らは、長期ホライズンにおいては能力と信頼性の順位が大きく乖離し得る（複数順位の反転を含む）こと、また「フロンティア」モデルは、野心的な多段ステップ戦略が悪循環（スパイラル）に陥り得るため、メルトダウン率が最も高いと報告している。
さらに、メモリのスキャフォールド（補助構造）を追加すると、評価した全モデルにおいて一様に長期ホライズン性能が悪化することが分かり、信頼性を、生の能力と同等の評価次元として扱うべきだという動機づけとなっている。

要旨: 既存のベンチマークは能力――単一の試行でモデルが成功するかどうか――を測定しますが、プロダクションへの導入では信頼性――タスクの持続時間が異なる課題に対して、繰り返し試行しても一貫して成功すること――が求められます。私たちは、これらの特性がタスクの所要時間が長くなるにつれて系統立って分岐し、短いタスクにおけるpass@1が、この分岐に対して構造的に盲目的であることを示します。私たちは、長期ホライズンのLLMエージェントのための信頼性科学の枠組みを導入します。そこでは、4つの指標――Reliability Decay Curve（RDC）、Variance Amplification Factor（VAF）、Graceful Degradation Score（GDS）、Meltdown Onset Point（MOP）――を用います。4つの期間ビンと3つのドメインにまたがる396タスクのベンチマークで、23,392エピソードに対して10モデルを評価します。主な発見: (1) 信頼性の減衰はドメインにより層別される――文書処理はほぼ横ばい（0.74から0.71）である一方、SEのGDSは0.90から0.44へ低下します；(2) VAFは能力ティアで二分される――高いVAFは不安定性の兆候ではなく、能力のシグネチャです；(3) 能力と信頼性のランキングは大きく乖離し、長いホライズンでは複数順位の逆転が起こります；(4) 最前線モデルはメルトダウン率が最も高い（最大19%）――野心的な多段戦略を試みることがあり、ときに渦巻き状に発散するためです；(5) メモリの足場（scaffolds）は、10モデルすべてにわたって長期ホライズン性能を普遍的に悪化させます。これらの結果は、能力と並んで信頼性を第一級の評価次元として位置付けることを動機づけます。