自己改善するLLMエージェントのための体験的・省察的学習

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、特化した環境に適応し、過去のタスク経験から行動可能な教訓を抽出して自己改善するためのLLMエージェント向け自己改善フレームワークである「体験的・省察的学習（ERL）」を提案する。
ERLは、タスクの軌跡と結果を省察して転用可能なヒューリスティックを生成し、テスト時には最も関連性の高いヒューリスティックを検索してエージェントの文脈に注入し、実行を導くことで機能する。
Gaia2ベンチマークにおいて、ERLはReActベースラインに対して成功率を7.8%向上させており、特にタスク完了の信頼性における改善が大きい。
本研究のアブレーションでは、選択的検索が性能にとって重要であること、またヒューリスティックを用いることは、few-shotの軌跡プロンプトよりも転用可能な抽象化を提供することが示される。
全体として著者らは、単回の試行からヒューリスティックを抽出することで、各タスクごとにゼロから学び直すことなく効果的にエージェントを自己改善できると主張している。

概要: 大規模言語モデル（LLM）の最近の進歩により、複雑な推論や多段階の問題解決が可能な自律エージェントの開発が可能になりました。しかし、これらのエージェントは専門的な環境に適応することが難しく、過去のやり取りを活用できず、蓄積された経験があっても新しいタスクに対しては最初から取り組んでしまいます。私たちは、経験的反省学習（Experiential Reflective Learning: ERL）を提案します。これは、経験学習によって迅速に環境適応を可能にする、単純な自己改善の枠組みです。ERLは、タスクの軌跡と結果を振り返ってヒューリスティックを生成し、タスク間で移転可能な実行可能な教訓を捉えます。テスト時には、現在のタスクに基づいて関連するヒューリスティックを取得し、エージェントの文脈に注入して実行を導きます。Gaia2ベンチマークでは、ERLはReActベースラインに対して成功率を7.8%改善し、タスク完了の信頼性に大きな向上が見られるとともに、過去の経験学習手法を上回ります。体系的なアブレーションにより、選択的な取得が本質的であること、また、少数ショットの軌跡プロンプトよりも、ヒューリスティックのほうが移転可能な抽象化を提供することを見いだしました。これらの結果は、単一の試行経験を振り返って移転可能なヒューリスティックを抽出することで、効果的なエージェントの自己改善が実現できることを示しています。

39体のエージェント・システムをライブ監査してみた。成熟度スコアカードが明らかにしたこと

Dev.to

レッドライン・エコノミー

Dev.to

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

Dev.to

散発的な選別からスナイパーへ：ハイパーパーソナライズされたメディアリストのためのAI

Dev.to

LiteLLMサプライチェーン攻撃：AIインフラに対する警鐘

Dev.to

自己改善するLLMエージェントのための体験的・省察的学習

要点

関連記事

39体のエージェント・システムをライブ監査してみた。成熟度スコアカードが明らかにしたこと

レッドライン・エコノミー

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

散発的な選別からスナイパーへ：ハイパーパーソナライズされたメディアリストのためのAI

LiteLLMサプライチェーン攻撃：AIインフラに対する警鐘

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer