要旨: 現在のLLMベースのエージェントは、エピソード型タスク実行において高い性能を示す一方で、静的なツールセットやエピソード的健忘によって制約されており、タスク境界を越えて経験を蓄積したり戦略を最適化したりできない。自己進化エージェント(Self-Evolving Agent: SEA)というパラダイムはこれまで提案されてきたが、本論文はデジタルの身体性に基づく連続的なタスク間進化によりSEAを新たに厳密に定義し、さらにSEAの特性を2つの次元、すなわちタスク内実行の信頼性と長期的な進化性能の観点から評価するために設計された最初のベンチマークであるSEA-Evalを導入する。タスクを連続するストリームとして整理し、時間経過に伴う成功率(Success Rate)とトークン消費量(Token Consumption)を分析することで、SEA-Evalは、既存のエピソード型ベンチマークでは不可能な方法で、進化による利得と構造的な安定性を定量化する。実験的評価の結果、現行の最先端フレームワークには顕著な進化的ボトルネックが存在することが明らかになった。同一の成功率が示されても、連続分析を行うとトークン消費量に最大31.2倍の差が現れ、進化の軌跡も分岐する。SEA-Evalは、エージェントを単なるタスク実行者から、真に自己進化するデジタル実体へと発展させるための、厳密な科学的基盤を提供する。
SEA-Eval:エピソード評価を超えて自己進化エージェントを評価するためのベンチマーク
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のLLMベースのエージェントはエピソード的なタスク完了には強い一方で、ツールセットが固定的でありエピソード的アメジア(エピソード記憶の欠落)のために、経験を蓄積したりタスク間で戦略を適応させたりできないと主張する。
- デジタル・エンボディメントと、継続的なタスク横断の進化を中心に据えた、より形式的なSelf-Evolving Agent(SEA)の定義を提案し、従来のSEAパラダイムを拡張する。
- SEA-Evalは、新たに導入されるベンチマークであり、シーケンシャルなタスクのストリームを用いてSEAの特性を評価する。エピソード内での実行の信頼性と、長期的な進化パフォーマンスに焦点を当てる。
- 本ベンチマークでは、一定期間にわたるSuccess Rate(成功率)やToken Consumption(トークン消費量)といった指標を用い、エピソード型ベンチマークでは見落とされがちな進化上の改善を明らかにする。
- 実験により、最先端のフレームワークには大きな進化上のボトルネックがあることが示される。同じ成功率であっても、トークン使用量には最大31.2倍の差が隠れており、その結果、長期的な進化の軌跡が分岐してしまう。

