Reflective Context Learning: 文脈空間の最適化プリミティブを学習する
arXiv cs.LG / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多くの中核的な学習の最適化課題(クレジット割当、過学習/忘却、局所最適、高分散なシグナル)が、パラメータ空間ではなく文脈空間で学習を行う場合にも同様に現れること、そして現行手法が断片化していることを主張する。
- 反省(reflection)によって、軌跡(trajectory)と現在の文脈から勾配のような方向更新信号を生成し、それを突然変異(mutation)として未来の文脈を反復的に改善するために適用する、統一的なエージェント枠組みであるReflective Context Learning(RCL)を提案する。
- 著者らは、既存の文脈最適化アプローチを、共通の学習・最適化問題の特殊ケースとして再解釈し、バッチング、より良いクレジット割当信号、補助損失(auxiliary losses)、失敗リプレイ、分散低減のためのグループ化ロールアウトといった再利用可能な最適化プリミティブで枠組みを拡張する。
- AppWorld、BrowseComp+、RewardBench2に関する実験により、これらのプリミティブが強力なベースラインよりも性能を改善することが示されるが、その相対的な価値はタスクのレジームによって変化する。
- 本研究はさらに、初期化の頑健性、バッチサイズ、サンプリング/カリキュラム、オプティマイザ状態のバリエーション、各コンポーネントに異なるモデルの強みを割り当てること、といった設計選択が結果にどのように影響するかを分析し、文脈更新を体系的な最適化問題として扱うべきだという見方を支持する。



