経験リプレイによるLLMのための効率的な強化学習トレーニング

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、学習において厳密にオンポリシーの新しいデータが必要だという一般的な認識にもかかわらず、トレーニング中に保存したロールアウトを再利用する経験リプレイが、LLMの事後学習（post-training）において有効に機能しうるかを検証する。
著者らは、LLMの事後学習におけるリプレイバッファ設計問題を、リプレイの陳腐化（分散）、サンプルの多様性、そして新しいデータを生成するための計算コストのトレードオフとして形式化する。
新しいサンプルの生成が高コストである場合には、厳密なオンポリシー・サンプリングが最適でないことを著者らは見出しており、リプレイがより計算効率の高い学習戦略になりうることを示唆する。
実験により、適切に設計されたリプレイバッファが、最終的なモデル性能を維持（場合によっては改善）しつつ、推論／計算の必要量を大幅に削減できることが示され、さらに方策エントロピーも維持される。

Abstract

経験再生（Experience Replay）――訓練中にロールアウトを保存し、それを複数回再利用する実践――は一般的な強化学習における基礎的な手法ですが、LLMのポストトレーニングでは、高い性能には新しいオンポリシーのデータが不可欠だという考えが広く行き渡っているため、ほとんど研究されていません。本研究ではこの前提に挑みます。私たちは、LLMのポストトレーニングにおけるリプレイバッファの体系的な調査を行い、最適設計を、陳腐化（staleness）によって生じる分散、サンプルの多様性、そして生成に伴う高い計算コストのトレードオフとして形式化します。生成が高価である場合、厳密なオンポリシーサンプリングは最適ではないことを示します。実験的に、適切に設計されたリプレイバッファによって、推論の計算量を大幅に削減でき、最終的なモデル性能を損なうことなく（場合によってはさらに向上させることさえでき）、さらにポリシーエントロピーも維持できることを示します。

Black Hat Asia

AI Business

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

経験リプレイによるLLMのための効率的な強化学習トレーニング

要点

Abstract

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化