広告

Rethinking Easy-to-Hard:演繹推論におけるポストトレーニングでのカリキュラム学習の限界

arXiv cs.CL / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、難しさを表面的な代理指標ではなく推論の複雑性によって定義する合成の算術・論理ベンチマークに対するLLMのポストトレーニングで、カリキュラム学習(CL)を体系的に検証する。
  • 「簡単なものから難しいものへ並べれば、構成的/演繹的推論における汎化が改善するはずだ」という直感に反して、難度に基づく例の順序付けはランダムサンプリングと比べて、頑健な精度向上や応答長の改善をもたらさないことが示される。
  • この負の効果は複数のモデルファミリおよびカリキュラムのスケジュールにわたって観測されるため、結果が特定のアーキテクチャやカリキュラム設計に依存しているわけではないことが示唆される。
  • 結果は、教師あり微調整(SFT)と強化学習(RL)によるポストトレーニングの両方で維持されるため、本設定において構成的汎化のためのCL順序付けには実用上の価値が限定的であることが示される。
  • 著者らは、演繹推論のポストトレーニングにおいては訓練例の具体的な順序が構成的汎化の達成にほとんど寄与しないように見えると結論づけ、一般的なCLの実践に疑問を投げかけている。

Abstract

学習カリキュラム(Curriculum learning: CL)は、難易度の低いものから高いものへと順に学ぶことで汎化が容易になるはずだという直感に動機づけられており、大規模言語モデル(LLMs)の事前学習および事後学習の両方で広く採用されています。CLの直感は、複雑な問題が初歩的な推論規則から構築される作曲的(compositional)推論に対して特に説得力がありますが、そのような課題におけるCLの実際の影響は、いまだ十分に調べられていません。本稿では、合成的な算術および論理ベンチマークを用いて、LLMの事後学習におけるCLの体系的な実証研究を提示します。ここでは、難しさを表層的な代理指標ではなく、推論の複雑さによって特徴づけます。驚くべきことに、複数のモデルファミリとカリキュラムのスケジュールにわたって、難易度に基づく系列化が、精度または応答の長さのいずれにおいても、標準的なランダムサンプリングに対して頑健な優位性を示さないことを見いだしました。これらの知見は、教師あり微調整(SFT)と強化学習(RL)の両方にわたって持続します。本研究は、演繹的推論の文脈では、学習例の具体的な順序付けが、作曲的汎化を達成するうえでほとんど重要でないことを示唆しており、カリキュラムに基づく事後学習の実用性に対して疑問を投げかけます。

広告