Reflective Context Learning: 文脈空間の最適化プリミティブを学習する

arXiv cs.LG / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多くの中核的な学習の最適化課題（クレジット割当、過学習／忘却、局所最適、高分散なシグナル）が、パラメータ空間ではなく文脈空間で学習を行う場合にも同様に現れること、そして現行手法が断片化していることを主張する。
反省（reflection）によって、軌跡（trajectory）と現在の文脈から勾配のような方向更新信号を生成し、それを突然変異（mutation）として未来の文脈を反復的に改善するために適用する、統一的なエージェント枠組みであるReflective Context Learning（RCL）を提案する。
著者らは、既存の文脈最適化アプローチを、共通の学習・最適化問題の特殊ケースとして再解釈し、バッチング、より良いクレジット割当信号、補助損失（auxiliary losses）、失敗リプレイ、分散低減のためのグループ化ロールアウトといった再利用可能な最適化プリミティブで枠組みを拡張する。
AppWorld、BrowseComp+、RewardBench2に関する実験により、これらのプリミティブが強力なベースラインよりも性能を改善することが示されるが、その相対的な価値はタスクのレジームによって変化する。
本研究はさらに、初期化の頑健性、バッチサイズ、サンプリング／カリキュラム、オプティマイザ状態のバリエーション、各コンポーネントに異なるモデルの強みを割り当てること、といった設計選択が結果にどのように影響するかを分析し、文脈更新を体系的な最適化問題として扱うべきだという見方を支持する。

Abstract

一般に有能なエージェントは、タスクや環境をまたいで汎化する形で経験から学ぶ必要がある。クレジット割当て（credit assignment）、過学習（overfitting）、忘却（forgetting）、局所最適（local optima）、高分散の学習シグナル（high-variance learning signals）といった学習の根本的な問題は、学習される対象がパラメータ空間にあるのか文脈空間にあるのかにかかわらず、引き続き存在する。これらの課題は古典的な機械学習の最適化においてはよく理解されている一方で、文脈空間では十分に探究されておらず、その結果、現在の手法は断片化され、場当たり的になっている。私たちは、反復的な相互作用、振る舞いと失敗モードの反省（reflection）、および文脈への反復的な更新（iterative updates）を通じて学習するエージェントのための統一的枠組みである反省的文脈学習（Reflective Context Learning, RCL）を提案する。RCLでは、反省が軌跡と現在の文脈を勾配（gradient）に類似した方向性の更新信号へと変換し、突然変異（mutation）がその信号を文脈空間での将来の振る舞いを改善するために適用する。我々は、近年の文脈最適化アプローチをこの共通の学習問題の個別事例として捉え直し、バッチ化、クレジット割当て信号の改善、補助損失、失敗のリプレイ、分散低減のためのグループ化されたロールアウトといった古典的な最適化プリミティブを体系的に拡張する。AppWorld、BrowseComp+、RewardBench2において、これらのプリミティブは強力なベースラインを上回り、それらの相対的な重要度はタスクの状況（task regimes）によって変化する。さらに、初期化への頑健性、バッチサイズの影響、サンプリングやカリキュラム戦略、オプティマイザ状態のバリアント、最適化の各コンポーネントに強いモデル／弱いモデルを割り当てることの影響について分析する。これらの結果は、文脈更新による学習を、孤立した一連のアルゴリズムとして扱うのではなく、そのメカニズムを体系的に研究し、移転可能な原理によって改善できる最適化問題として捉えるべきであることを示唆している。