効果的な体験学習に向けて:活用と内面化のためのデュアル・ガイダンス
arXiv cs.LG / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMのRLVRベースの学習における現状と、人間が外部の経験と内面化された知識を組み合わせて学習する仕組みとの間にギャップがあることを指摘している。
- 過去の軌跡から構築した外部の経験バンクと、モデルの内的知識の両方を用いて、RLVR学習中の探索を導く「Dual Guidance Optimization(DGO)」を提案する。
- DGOは閉ループとして機能し、新たな軌跡が経験バンクを改善すると同時にモデルのパラメータを更新し、反復的に活用と内面化を強化する。
- 実験の報告によれば、DGOは推論タスクにおいてベースラインのRLVR学習手法を一貫して上回り、経験からのより効果的な学習が示される。