分布シャープニングを超えて:タスク報酬が重要である理由

arXiv cs.LG / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、タスク報酬に基づく強化学習(RL)がフロンティアモデルに新しい能力を本当に与えるのか、それとも既存の出力分布を単にシャープ化して潜在的な能力を引き出しているだけなのかを検討しています。
  • 「分布シャープニング」には本質的な限界があり、望ましくない最適解につながり得ること、さらに根本的に不安定になり得ることを、第一原理から分析しています。
  • 両者のパラダイムを比較するために、基盤としてRLを用い、意図的に明確な対比ができる形で実装しています。
  • 数学データセットで Llama-3.2-3B-Instruct や Qwen の各種モデルを用いた実験では、分布シャープニングの効果は限定的である一方、タスク報酬信号を取り込む学習は大幅な改善と安定した学習につながることが示されています。
  • 以上の結果は、推論モデルをより能力の高いエージェントへと進化させるために、分布シャープニングの効果だけに依存するよりもタスク報酬を活用すべきだという方向性を支持しています。