長期ホライズン課題の幻影？エージェンティック・システムが破綻する場所と理由を診断する

arXiv cs.AI / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMベースのエージェンティック・システムが短〜中期ホライズンのタスクは確実に処理できる一方で、長期ホライズンでは、長く相互に依存し合う一連のアクションを要するタスクで失敗が頻発することを見出す。
複数領域にまたがる診断ベンチマークである HORIZON を導入し、長期ホライズン課題を体系的に構成して、ホライズン長の増大に伴いエージェントの失敗がどこで、どのように悪化するのかを測定する。
HORIZON を用いて、最先端のエージェント（GPT-5 のバリアントや Claude モデル）を評価し、4つのエージェンティック領域にわたって3,100件超の軌跡を収集することで、ホライズン依存の失敗パターンを特徴づける。
軌跡に基づく「LLM-as-a-Judge（LLMを裁定者として用いる）」パイプラインを提案し、大規模かつ再現可能な形で失敗の原因を帰属させる。人手による注釈との検証を行い、実質的な一致が得られている（kappa 値を報告）。
著者らは HORIZON Leaderboard を公開し、長期ホライズンにおけるエージェント挙動の継続的な、原理に基づく比較と診断を支えるためにコミュニティの貢献を呼びかける。

要旨: 大規模言語モデル（LLM）エージェントは短期および中期の課題で強力に機能しますが、長期の課題—延長された、相互依存する一連の行動を必要とする課題—ではしばしば破綻します。エージェント型システムの急速な進展にもかかわらず、これらの長期的失敗は依然として十分に特徴づけられておらず、原理に基づく診断やドメイン間での比較を妨げています。このギャップに対処するため、私たちはHORIZONを導入します。これは、LLMベースのエージェントにおける長期的失敗行動を、体系的にタスク構成しながら分析するための、初期段階のクロスドメイン診断ベンチマークです。HORIZONを用いて、複数のモデルファミリー（GPT-5のバリアントおよびClaudeモデル）からなる最先端（SOTA）のエージェントを評価し、4つの代表的なエージェント型ドメインにわたって3100本超の軌跡（トラジェクトリ）を収集することで、ホライズン依存の劣化パターンを調べます。さらに、失敗の帰属を大規模かつ再現可能な形で行うための、軌跡に基づくLLM-as-a-Judge（LLMを裁定者として用いる）パイプラインを提案し、軌跡に対する人手アノテーションで検証することで強い一致を達成しました（アノテータ間
\kappa=0.61、人手-裁定者
\kappa=0.84）。本研究の結果は、長期的エージェント失敗を体系的に、かつクロスドメインで分析するための初期の方法論的ステップを提供し、より信頼できる長期的エージェントを構築するための実践的な指針も示します。プロジェクトWebサイトは
\href{https://xwang2775.github.io/horizon-leaderboard/}{HORIZON Leaderboard} で公開しており、コミュニティからの貢献を歓迎します。