CoEvolve：エージェントのデータ相互進化によるLLMエージェントの学習

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMエージェントの強化学習が静的なデータ分布に基づくことが多く、その分布がエージェントの振る舞いの変化に適応できないため、複雑な環境との相互作用のカバレッジが不足し、性能が伸びにくいと指摘しています。
CoEvolveは、ロールアウト軌跡から「忘却」や「不確実性」といったフィードバック信号を抽出し、失敗しやすい相互作用パターンを特定することで、エージェントとデータを相互に進化させるクローズドループ学習フレームワークを提案します。
特定したパターンをもとに、LLMによるタスク合成を行い、環境との相互作用で合成タスクを検証したうえで、その結果を学習データ分布の更新に利用します。
AppWorldとBFCLで、Qwen2.5-7B、Qwen3-4B、Qwen3-30B-A3Bを用いた実験では、強力なベースラインモデルに対して一貫した有意な改善が示され、絶対改善幅はそれぞれ19.43%、15.58%、18.14%でした。
全体として、本手法はエージェントの方策と、エージェントが学習に用いるデータの両方を環境ダイナミクスの変化に合わせて同時に適応させることを狙っています。

Abstract

LLMエージェントに対する強化学習は通常、静的なデータ分布上で実施されますが、これはエージェントの進化する行動に適応できず、複雑な環境相互作用に対するカバレッジが不十分になるという問題を招きます。これらの課題に対処するために、本研究では、エージェントとデータの相互進化を行う枠組みであるCoEvolveを提案します。これにより、クローズドループの相互作用駆動型トレーニングを通じて、LLMエージェントが改善できるようになります。具体的には、CoEvolveはロールアウト軌跡から、忘却や不確実性といったフィードバック信号を抽出し、失敗しやすい相互作用パターンを特定します。そしてそれらを、LLMベースのタスク合成を導くために利用します。合成されたタスクは環境との相互作用によって検証され、その結果を用いてデータ分布を更新します。これにより、エージェントとそのデータがともに適応可能になります。Qwen2.5-7B、Qwen3-4B、Qwen3-30B-A3Bにまたがって、AppWorldおよびBFCLに対して大規模な実験を行った結果、強力なベースモデルに対して一貫した有意な改善が示されました。それぞれ絶対的な向上幅は19.43%、15.58%、18.14%です。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

CoEvolve：エージェントのデータ相互進化によるLLMエージェントの学習

要点

Abstract

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer