概要:大規模言語モデル(LLM)に基づくエージェントは、短期的な視野と高度に構造化されたタスクで顕著な成功を収めている。しかし、現実的で動的な環境の中で長期的な視野にわたって一貫した意思決定を維持する能力は、依然として未解決の課題である。
私たちはRetailBenchを紹介します。現実的な商業シナリオで長期的な自律意思決定を評価するための高忠実度ベンチマークで、エージェントは確率的な需要と変化する外部条件の下で運用されなければなりません。
さらに、時間経過とともに変化する戦略と実行を分離するEvolving Strategy & Executionフレームワークを提案します。高レベルの戦略的推論を低レベルの行動実行から分離します。この設計は、時間の経過とともに適応的で解釈可能な戦略の進化を可能にします。これは、非定常な環境と誤差蓄積が、行動実行とは異なる時間スケールで戦略を見直すことを要求する長期的なタスクにとって特に重要です。
最先端のLLMを8つ用いた実験は、段階的に難易度が高まる環境において、我々のフレームワークが他のベースラインと比較して運用の安定性と効率を向上させることを示しています。しかし、タスクの複雑さが増すにつれて性能は大幅に低下し、長期的で複数の要因にわたる意思決定における現行のLLMの根本的な限界を明らかにしています。


