KnowRL:最小十分な知識ガイダンスによる強化学習でLLMの推論を強化する

arXiv cs.AI / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 推論時にKPのヒントがまったくない場合、モデルは平均精度70.08に到達し、選択したKPsを用いると74.16まで改善され、この規模における新たな最先端(SOTA)として報告されている。コードとデータはGitHubで公開されている。

要旨: RLVRは大規模言語モデルにおける推論を改善しますが、その有効性は難しい問題における深刻な報酬スパース性によってしばしば制限されます。近年のヒントベースのRL手法は、部分的な解答や抽象的なテンプレートを注入することでスパース性を緩和していますが、通常は、より多くのトークンを追加することで誘導をスケールさせるため、冗長性、不整合、そして追加の学習オーバーヘッドが生じます。我々は、ヒント設計を最小十分な誘導(minimal-sufficient guidance)の問題として扱うRL学習フレームワークである\textbf{KnowRL}(Knowledge-Guided Reinforcement Learning)を提案します。RL学習の間、KnowRLは誘導を原子的な知識ポイント(KPs)に分解し、Constrained Subset Search(CSS)を用いて、学習用のコンパクトで相互作用を考慮したサブセットを構築します。さらに、剪定(pruning)に関する相互作用パラドックスを特定します――1つのKPを取り除くと役立つ場合がある一方で、複数のそのようなKPを取り除くと損なわれ得る――そして、この依存構造の下で頑健なサブセット選別(curation)を明示的に最適化します。OpenMath-Nemotron-1.5BからKnowRL-Nemotron-1.5Bを学習させます。1.5Bスケールにおける8つの推論ベンチマークにて、KnowRL-Nemotron-1.5Bは強力なRLおよびヒンティングのベースラインを一貫して上回ります。推論時にKPヒントがない場合、KnowRL-Nemotron-1.5Bは平均精度70.08に到達し、すでにNemotron-1.5Bを+9.63ポイント上回ります。選択されたKPsを用いると性能は74.16まで向上し、このスケールにおける新たな最先端を確立します。モデル、厳選された学習データ、およびコードは https://github.com/Hasuer/KnowRL で公開されています。