要約:
Chain-of-thought推論(思考過程推論)では、言語モデルが最終応答の前に思考トークンを生成することで追加の計算を要し、モデルの能力に大きな進歩をもたらしています。しかし、これらの推論モデルを訓練するには、データと計算の両面で極めて高コストです。人間や合成生成器から長い推論行動の軌跡を収集し、さらに強化学習によって訓練後のモデルを微調整する必要があるためです。これらのコストは根本的なものなのか、それともより良いアルゴリズム設計によって削減できるのか?私たちは、モデルが自身の性能を用いて訓練の焦点を当てる問題を決定する自動カリキュラム(autocurriculum)は、監督付きファインチューニング(SFT)と強化学習(RL)の標準的な訓練レシピを証明可能に改善することを示します。SFTの場合、autocurriculum は現在のモデルが苦戦しているプロンプトに教師の監視を集中させることによって、非適応的な微調整よりも指数関数的に少ない推論デモンストレーションで済むことを示します。RLファインチューニングの場合、autocurriculum は計算コストを参照モデルの品質から切り離し、後者をターゲット精度にほぼ依存しない初期化コストにまで低減します。これらの改善は、適応的データ選択だけに由来し、ブースティングや反例から学習する古典的手法を取り入れ、プロンプトの分布や難易度に関する前提を一切求めません。
Curriculum I で推論を学ぶ: 自動カリキュラムの実証可能な利点
arXiv cs.LG / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は自動カリキュラムを提案する。自動カリキュラムは、モデルが自身の性能信号を用いてどの問題に焦点を当てるべきかを選択する訓練パラダイムであり、プロンプトの分布や難易度レベルを仮定することなく適応的なデータ選択を可能にする。
- 教師付きファインチューニングにおいて、自動カリキュラムはモデルが現在苦労しているプロンプトに対して教師の監督を集中させることで、必要な推論デモンストレーションを劇的に削減し、非適応的なファインチューニングに比べて指数関数的な利得を生み出す。
- 強化学習によるファインチューニングでは、自動カリキュラムが計算コストとターゲット精度を切り離し、顕著な初期投入コストを削減し、最終的なモデル性能にはほぼ依存しない状態に近づける。
- これらの改善は、ブースティングと反例からの学習のアイデアを組み合わせたことにより生じ、データ分布に関する新たな仮定を課すことなく、アルゴリズムの効率性を向上させる。




