Curriculum I で推論を学ぶ: 自動カリキュラムの実証可能な利点

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は自動カリキュラムを提案する。自動カリキュラムは、モデルが自身の性能信号を用いてどの問題に焦点を当てるべきかを選択する訓練パラダイムであり、プロンプトの分布や難易度レベルを仮定することなく適応的なデータ選択を可能にする。
教師付きファインチューニングにおいて、自動カリキュラムはモデルが現在苦労しているプロンプトに対して教師の監督を集中させることで、必要な推論デモンストレーションを劇的に削減し、非適応的なファインチューニングに比べて指数関数的な利得を生み出す。
強化学習によるファインチューニングでは、自動カリキュラムが計算コストとターゲット精度を切り離し、顕著な初期投入コストを削減し、最終的なモデル性能にはほぼ依存しない状態に近づける。
これらの改善は、ブースティングと反例からの学習のアイデアを組み合わせたことにより生じ、データ分布に関する新たな仮定を課すことなく、アルゴリズムの効率性を向上させる。

要約:
Chain-of-thought推論（思考過程推論）では、言語モデルが最終応答の前に思考トークンを生成することで追加の計算を要し、モデルの能力に大きな進歩をもたらしています。しかし、これらの推論モデルを訓練するには、データと計算の両面で極めて高コストです。人間や合成生成器から長い推論行動の軌跡を収集し、さらに強化学習によって訓練後のモデルを微調整する必要があるためです。これらのコストは根本的なものなのか、それともより良いアルゴリズム設計によって削減できるのか？私たちは、モデルが自身の性能を用いて訓練の焦点を当てる問題を決定する自動カリキュラム（autocurriculum）は、監督付きファインチューニング（SFT）と強化学習（RL）の標準的な訓練レシピを証明可能に改善することを示します。SFTの場合、autocurriculum は現在のモデルが苦戦しているプロンプトに教師の監視を集中させることによって、非適応的な微調整よりも指数関数的に少ない推論デモンストレーションで済むことを示します。RLファインチューニングの場合、autocurriculum は計算コストを参照モデルの品質から切り離し、後者をターゲット精度にほぼ依存しない初期化コストにまで低減します。これらの改善は、適応的データ選択だけに由来し、ブースティングや反例から学習する古典的手法を取り入れ、プロンプトの分布や難易度に関する前提を一切求めません。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

Curriculum I で推論を学ぶ: 自動カリキュラムの実証可能な利点

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒