Rethinking Easy-to-Hard:演繹推論におけるポストトレーニングでのカリキュラム学習の限界
arXiv cs.CL / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、難しさを表面的な代理指標ではなく推論の複雑性によって定義する合成の算術・論理ベンチマークに対するLLMのポストトレーニングで、カリキュラム学習(CL)を体系的に検証する。
- 「簡単なものから難しいものへ並べれば、構成的/演繹的推論における汎化が改善するはずだ」という直感に反して、難度に基づく例の順序付けはランダムサンプリングと比べて、頑健な精度向上や応答長の改善をもたらさないことが示される。
- この負の効果は複数のモデルファミリおよびカリキュラムのスケジュールにわたって観測されるため、結果が特定のアーキテクチャやカリキュラム設計に依存しているわけではないことが示唆される。
- 結果は、教師あり微調整(SFT)と強化学習(RL)によるポストトレーニングの両方で維持されるため、本設定において構成的汎化のためのCL順序付けには実用上の価値が限定的であることが示される。
- 著者らは、演繹推論のポストトレーニングにおいては訓練例の具体的な順序が構成的汎化の達成にほとんど寄与しないように見えると結論づけ、一般的なCLの実践に疑問を投げかけている。



