ほとんどのAIエージェントは一度きりの試行しか持ちません。彼らは質問を受け取り、検索または計画を実行し、答えを出して次へ進みます。もし答えが間違っていれば、その失敗は忘れ去られてしまう。次回には何が間違っていたのかという記憶もなく、新たに始めます。
人間はこのようには働きません。私たちは失敗し、なぜ失敗したのかを考え、より良い計画で再挑戦します。2025年12月から2026年3月にかけて、AI2、EPFL、清華大学の3つの独立した研究チームが同じアイデアに到達しました。エージェントに複数回の試行を与えます。各失敗を振り返らせます。その振り返りを次の試行に取り入れます。彼らはこれを自己反省を伴うメタ強化学習と呼びます。
単発のエージェントが不十分である理由
標準的なRLで訓練されたエージェントは、各試行を独立して扱います。1回の試行から次の試行へ学びを持ち越すことはできません。独立した試行は、エージェントが同じ間違いを繰り返すことを意味します。RL訓練が進むにつれて、エージェントは固定した行動へ収束し、新しい戦略を探索することをやめてしまいます。 LaMer は軌道の多様性分析でこれを示しました。 RL訓練後、エージェントの行動パターンのエントロピーはベースモデルと比べて大幅に低くなりました。
自己反省を伴うメタRLはこの3つをすべて解決します。設計は簡単です。問題ごとに3回の試行を許可します。各試行の後、エージェントは何がうまくいかなかったかと次に試すべきことを書きます。その振り返りのテキストは次の試行の文脈に入ります。訓練中、システムはエピソード間報酬を最適化するため、モデルは有用な振り返りの書き方を学びます。
要点は、テスト時には重みの更新がないということです。エージェントは過去のエピソードと振り返りテキストを文脈ウィンドウに追加することで適応します。LaMerはこれをインコンテキスト・ポリシー適応と呼びます。展開後にオンライン学習を必要としないことを意味します。
3つのチームが見つけたこと
3つのチームがこのパターンを異なるタスク領域で検証しました。彼らの結果は、検索、ゲーム、ウェブタスク、マルチエージェント環境の全領域で機能することを示しています。
AI2のMR-Searchは検索QAを対象としています。Qwen2.5-7Bを用いて、QAベンチマークの平均正解率を相対9.3%改善しました。小型の3Bモデルでは、利得は19.3%に達しました。MR-Searchは各中間ステップに対してクレジットを割り当てるターンレベルのアドバンテージ推定を使用します。最終回答だけでなく中間ステップにもクレジットを付与します。訓練を超えて拡張します。3回の試行で訓練されたモデルでも、テスト時には5回または7回の試行で性能が向上し続けます。arXiv:2603.11327
EPFLのLaMerはゲームとウェブタスクに取り組んでいます。Qwen3-4Bを使用し、Sokobanでpass@3の成功率を11.8ポイント、MineSweeperで19.3ポイント、Webshopで13.9ポイント、最良のRLベースラインと比較して向上させました。特に1つの発見が際立ちます。記憶に振り返りテキストのみを保持する方が、軌道と振り返りの両方を保持するデフォルト設定よりも効果的です。MineSweeperでは、振り返りのみのスコアが80.5%、完全な履歴の74.4%に対して上回りました。振り返りは短く、1トークンあたりの有用情報量が多くなります。(arXiv:2512.16848, ICLR 2026)
清華大学のMAGEはこれをマルチエージェント設定へ拡張します。戦略的な悪用に焦点を当て、対戦相手の弱点を見つけて利用します。Webshopで100%の成功率(GiGPOの75.2%に対して)、Tic-Tac-ToeではMCTS-100に対して67.2%を達成しました(LaMerの60.2%に対して)。MCTS-1000に対しては、Tic-Tac-Toeでほぼ完璧な対戦相手に対してゼロショット適応で100%の引き分け率を達成しました。(arXiv:2603.03680)
3つのフレームワークは設計上のいくつかの点で異なります。MR-Searchはエピソード間の割引を使いません(gamma=1.0)、一方でLaMerとMAGEは0.6を使います。MAGEは差分リターンを用い、総得点よりも前のエピソードの改善を報酬とします。MAGEのアブレーション研究は、差分リターンが累積リターンよりも安定した学習を生み出すことを示しました。3つの論文はまた異なる指標(Exact Match vs. pass@k)を用いるため、直接的な数値比較は妥当ではありません。
注意点
すべての結果は著者自身の実験に基づきます。大規模な独立再現はまだ限定的です。LaMerはICLR 2026で査読を通過しています。MR-SearchとMAGEはプレプリントです。MR-Searchのコードは2026年3月21日に公開予定です。LaMerとMAGEのコードはすでに公開されています。
ベースモデルは小型で、パラメータは4B〜7Bです。70B+モデルでのテストはまだ誰も行っていません。訓練は標準的なRLより約2倍の時間がかかります。エピソードは順番に生成する必要があり、並列にはできません。LaMerはこのコストを報告しています。
振り返りの品質にはリスクがあります。LLMの幻覚が振り返りに入る可能性があります。誤った振り返りは、何も振り返りがない場合よりも性能を損なうかもしれません。3つの論文のいずれもこれへの直接的な対処法を提案していません。文脈長も別の制約です。エピソードと振り返りは急速に蓄積され、長いタスクでは情報が失われます。
結論
転換点は「最初の一回で正しくやること」から「失敗して反省し、改善すること」へ移ることです。3つの独立したチームが同時期にこのパターンへ収束しました。その収束自体が一つの信号です。エージェント開発者にとって、実践的な要点は次のとおりです。エージェントは1回の試行で終えるべきだという仮定を疑問視してください。探索と振り返りの余地を組み込みましょう。仕組みは軽量です。テスト時には重みの更新はありません。文脈だけです。




