広告

QuestA:質問拡張によってLLMの推論能力を拡張する

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、強化学習(RL)は、学習シグナルを改善するための修正なしには、ベースモデルを超えてLLMの推論能力を確実に向上させられるとは限らないと主張している。
  • より難しい推論問題をRL中に扱いやすくするため、部分解を与えることで難問を部分的に解きやすくする学習戦略「QuestA(Question Augmentation)」を導入する。
  • 数学の推論タスクにおけるRLに適用すると、QuestAはpass@1とpass@kの両方を改善し、特に通常のRLでは進展が限定的なケースで効果が大きい。
  • 著者らは、1.5Bパラメータのモデルを用いて新たな最先端の数学ベンチマーク結果を報告しており、AIME24、AIME25、HMMT25での向上が含まれる。
  • 本手法のコード、データ、モデルは公開されており、既存の強力なオープンソース推論モデルに対して、さらなる実験や継続的な改善が可能になる。

要旨: 強化学習(RL)は、推論タスクにおいて大規模言語モデル(LLM)を訓練するための中心的なパラダイムとして台頭してきました。しかし、近年の研究では、RLが基盤モデルを超えて推論能力を引き出すような動機づけを行えるのかが疑問視されています。ここで重要な課題は、RLをどのように適応させれば、より難しい推論問題をより効果的に解けるようになるのか、という点です。この課題に対処するために、私たちは「質問拡張(Question Augmentation)」によるシンプルでありながら効果的な戦略を提案します。学習中に部分解を導入することで、問題の難易度を下げ、より情報量の多い学習シグナルを提供します。提案手法であるQuestAは、数学の推論タスクに対してRL訓練中に適用すると、pass@1 だけでなく pass@k も向上し、特に標準的なRLでは進展しにくい問題において効果を発揮します。これにより、DeepScaleRやOpenMath Nemotronのような強力なオープンソースモデルに対して継続的な改善が可能となり、さらにそれらの推論能力を高められます。私たちは、1.5Bパラメータモデルを用いて数学ベンチマークで新たな最先端(SOTA)の結果を達成しました。AIME24で72.50%(+10.73%)、AIME25で62.29%(+12.79%)、HMMT25で41.67%(+10.11%)です。コード、データ、モデルは https://github.com/foreverlasting1202/QuestA で公開されています。

広告