長期タスク向けにLLMの意思決定とスキルバンクを共進化させるエージェント

arXiv cs.AI / 2026/4/25

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、遅延報酬や部分観測の下で、エージェントが多くのタイムステップにわたり複数スキルを連鎖させて意思決定する必要がある長期タスク向けに、COSPLAYという共進化フレームワークを提案する。
COSPLAYでは、LLMの意思決定エージェントが学習可能なスキルバンクから構造化スキルを検索し、エピソード間での一貫した意思決定を改善する。
別の「スキル・パイプライン」エージェントが、ラベルなしロールアウトから再利用可能なスキルを発見・洗練し、スキルバンクとそれに紐づく契約（contracts）を継続的に更新する。
6つのゲーム環境での実験では、8BベースモデルでCOSPLAYが単一プレイヤーのベンチマークにおいて4つの最先端LLM基準より平均報酬を25.1%以上改善しつつ、多人数のソーシャル推論ゲームでも競争力を維持することが示された。