言語モデルのオンライン体験学習

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • OELは、ユーザー側の環境にはアクセスせず、デプロイ時の経験から継続的に改善できる2段階のオンライン体験学習フレームワークを提案します。
  • 第一段階では、ユーザーとの対話の軌跡から転移可能な体験知識を抽出し、第二段階ではそれをオンポリシーの文脈蒸留を介してモデルパラメータに統合し、反復的なオンライン学習ループを形成します。
  • 複数のモデルサイズにまたがるテキストベースのゲーム環境での評価は、タスクの正確性とトークン効率の一貫した改善を示し、OOD(分布外)性能を維持します。
  • 結果は、体験知識が生の軌跡よりも効果的であること、そして知識源とポリシーモデルとのオンポリシーの一貫性が効果的な学習には不可欠であることを示しています。

要旨: 大規模言語モデルを改善するための支配的なパラダイムは、人間の注釈やシミュレートされた環境を用いたオフライン学習に依存しており、実世界のデプロイメント中に蓄積された豊かな経験を完全に活用していない。私たちはオンライン体験学習(OEL)を提案します。これは言語モデルが自らのデプロイメント経験から継続的に改善できるフレームワークです。OELは二つの段階で動作します。まず、ユーザー側で収集された相互作用の軌跡から移転可能な体験知識を抽出・蓄積します。次に、この知識をオンポリシーの文脈蒸留によってモデルパラメータに統合します。これにはユーザー側環境へのアクセスは必要ありません。二つの段階は反復され、オンライン学習ループを形成します。改善されたモデルはより高品質な軌跡を収集し、それが次のラウンドのより豊かな経験知識を生み出します。OELは複数のモデルスケールと「思考あり」および「思考なし」のバリアントの両方で、テキストベースのゲーム環境で評価します。OELは連続した反復を通じて一貫した改善を達成し、タスクの正確さとトークン効率を高めつつ、分布外性能を維持します。私たちの分析は、抽出された体験知識が生の軌跡よりもはるかに効果的であること、そして知識源とポリシーモデルとのオンポリシー的一貫性が効果的な学習には極めて重要であることをさらに示しています。