言語モデルのオンライン体験学習

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

OELは、ユーザー側の環境にはアクセスせず、デプロイ時の経験から継続的に改善できる2段階のオンライン体験学習フレームワークを提案します。
第一段階では、ユーザーとの対話の軌跡から転移可能な体験知識を抽出し、第二段階ではそれをオンポリシーの文脈蒸留を介してモデルパラメータに統合し、反復的なオンライン学習ループを形成します。
複数のモデルサイズにまたがるテキストベースのゲーム環境での評価は、タスクの正確性とトークン効率の一貫した改善を示し、OOD（分布外）性能を維持します。
結果は、体験知識が生の軌跡よりも効果的であること、そして知識源とポリシーモデルとのオンポリシーの一貫性が効果的な学習には不可欠であることを示しています。

要旨: 大規模言語モデルを改善するための支配的なパラダイムは、人間の注釈やシミュレートされた環境を用いたオフライン学習に依存しており、実世界のデプロイメント中に蓄積された豊かな経験を完全に活用していない。私たちはオンライン体験学習（OEL）を提案します。これは言語モデルが自らのデプロイメント経験から継続的に改善できるフレームワークです。OELは二つの段階で動作します。まず、ユーザー側で収集された相互作用の軌跡から移転可能な体験知識を抽出・蓄積します。次に、この知識をオンポリシーの文脈蒸留によってモデルパラメータに統合します。これにはユーザー側環境へのアクセスは必要ありません。二つの段階は反復され、オンライン学習ループを形成します。改善されたモデルはより高品質な軌跡を収集し、それが次のラウンドのより豊かな経験知識を生み出します。OELは複数のモデルスケールと「思考あり」および「思考なし」のバリアントの両方で、テキストベースのゲーム環境で評価します。OELは連続した反復を通じて一貫した改善を達成し、タスクの正確さとトークン効率を高めつつ、分布外性能を維持します。私たちの分析は、抽出された体験知識が生の軌跡よりもはるかに効果的であること、そして知識源とポリシーモデルとのオンポリシー的一貫性が効果的な学習には極めて重要であることをさらに示しています。

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

言語モデルのオンライン体験学習

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer