LongCoT: 長期的なチェーン・オブ・ソート推論のベンチマーク

arXiv cs.LG / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、化学、数学、計算機科学、チェス、論理の分野にまたがる専門家設計の2,500問からなる、スケーラブルなベンチマーク「LongCoT」を提案し、長期的なチェーン・オブ・ソート推論を測定する。
各問題には検証可能な解答があり、数万〜数十万の推論トークンにわたって推論ステップ間の依存関係から成る大規模なグラフを解く必要がある。これにより、局所的なステップの難しさではなく、長期的な計画／CoT管理を切り分けて評価する。
ベンチマークは、個々の下位ステップが最先端モデルにとっても扱えるように設計されているため、観測される誤りは、長い地平での正しい推論を維持することの限界をより直接的に反映する。
公開時点で、主要モデルはいずれもLongCoTにおいて10%未満の精度を示している（GPT 5.2: 9.8%、Gemini 3 Pro: 6.1%）。これは、現在の長期的推論能力には大きなギャップがあることを示している。
LongCoTは、最先端の言語モデルが、長い多段プロセスにわたってどれだけ信頼性高く推論できるかを、追跡・比較するための厳格な物差しとして位置付けられている。

要旨: 言語モデルが複雑な自律タスクにますます導入されるにつれ、より長い時間的地平にわたって正確に推論する能力が重要になっています。この能力の本質的な要素の1つが、長く複雑な思考連鎖（CoT）を計画し管理することです。私たちはLongCoTを導入します。LongCoTは、化学、数学、計算機科学、チェス、論理にまたがる、専門家が設計した2,500問からなるスケーラブルなベンチマークであり、最先端モデルの長期的なCoT推論能力を分離し、直接測定します。問題は、検証可能な答えを持つ短い入力から構成されます。解くには、推論トークンとして数十から数十万に及ぶ、相互依存する手順のグラフをたどる必要があります。各局所的ステップは最先端モデルにとって個別には扱いやすいので、失敗は長期的推論の制約を反映します。公開時点で、最良のモデルはLongCoTで<10%の精度（GPT 5.2: 9.8%; Gemini 3 Pro: 6.1%）を達成しており、現在の能力に大きな隔たりがあることを示しています。全体として、LongCoTは長期的推論を厳密に測る指標を提供し、最先端モデルが長時間にわたって確実に推論できる能力を追跡します。