易から難へと段階的なカリキュラムを用いた反復的自己改善のタスク中心理論

arXiv stat.ML / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、報酬で検証された出力を用いた反復的自己改善のファインチューニングを分析し、期待報酬に対する finite サンプル保証を導出する。
各ラウンドを、報酬でフィルタリングされた分布に対する最大尤度推定に基づくファインチューニングとしてモデル化し、より良いモデルが1回あたりより多くのデータを消費できるというフィードバックループを明らかにし、持続的な改善と最終的な飽和を可能にする。
易から難へと段階的なカリキュラムを採用するタスク中心の視点を取り入れることで、初期化、タスク難易度、予算に関する条件の下で、カリキュラムが固定されたタスク混合での訓練を上回ることを示す。
本理論は、モンテカルロ・シミュレーションと、合成グラフベースの推論課題および標準的な数学的推論ベンチマークでの実験を用いて検証される。

概要：反復的自己改善は、自己の生成した報酬検証済み出力上で、自己回帰型大規模言語モデル（LLM）を微調整する。実証的な自己改善の成功とは対照的に、実用的で有限サンプルの設定におけるこの生成的かつ反復的手順の理論的基盤は依然として限定されている。私たちは、この目標に向けて前進するために、自己改善の各ラウンドを報酬でフィルタリングされた分布上での最大尤度微調整としてモデル化し、期待報酬に対する有限サンプル保証を導出する。私たちの分析は、より良いモデルが反復ごとにより多くのデータを受け入れる明示的なフィードバックループを明らかにし、持続的な自己改善を支えつつ、その改善が最終的に飽和することを説明する。難易度の異なる推論タスクを考慮したタスク中心の視点を採用し、モデルの初期化、タスク難易度、およびサンプル予算に関する定量的条件をさらに証明する。易から難へと進むカリキュラムが、固定されたタスクの混合での訓練よりも保証を確実に改善することを示す条件を導出した。私たちの分析は、モンテ＝カルロシミュレーションと、合成グラフベースの推論タスクおよび複数の標準的な数学的推論ベンチマークにまたがる実験を通じて検証されている。