重要な場所にパズルのピースを配置する:強化学習のための質問オーグメンテーション枠組み

arXiv cs.LG / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの推論に対する強化学習のジレンマを扱っており、易しい問題での学習は過学習やpass@k低下を招きうる一方で、難しい問題での学習は報酬が疎になることがあると述べています。
  • 既存の質問オーグメンテーションは一様に部分解答をヒントとして前置しますが、冗長な情報を増やしたり重要な推論のボトルネックを見逃したりし、さらにヒントを与えすぎると推論の多様性が下がってpass@kが悪化しうる点が問題視されています。
  • 提案手法のPieceHintは、推論ステップの重要度をスコアリングし、問題の難易度に応じてヒントを選択的に提示することでこの課題に対処します。
  • さらに、PieceHintは足場(スキャフォールド)を段階的に撤回し、学習をガイド付きからより独立した推論へと移行させます。
  • 数学的推論の6つのベンチマークでの実験では、1.5Bモデルが32Bのベースラインと平均性能で同等でありつつ、複数のk値にわたってpass@kの多様性を維持できたと報告しています。

Abstract

強化学習は、大規模言語モデルの推論を強化するための強力なアプローチとして注目されている一方で、根本的なジレンマに直面している。すなわち、簡単な問題で学習すると過学習が起きてpass@kの劣化につながる可能性があるが、難しい問題で学習すると報酬が疎になることが多い。最近の質問拡張(question augmentation)手法は、部分的な解答をヒントとして前置することでこの課題に対処している。しかし、一様なヒント提示は冗長な情報を導入しうる一方で、重要な推論のボトルネックを見落とす可能性がある。また、過剰なヒントは推論の多様性を低下させ、pass@kの劣化を引き起こしうる。私たちは、 \textbf{PieceHint} を提案する。これは、学習中に重要な推論ステップを戦略的に特定し、それらをヒントとして提供するヒント注入フレームワークである。異なる推論ステップの重要度をスコアリングし、問題の難易度に応じてヒントを選択的に割り当て、足場(scaffolding)を段階的に撤回することで、PieceHintはモデルがガイド付き学習から独立した推論へ移行できるようにする。6つの数学的推論ベンチマークでの実験では、提案手法により、私たちの1.5Bモデルが32Bのベースラインと同等の平均性能を達成しつつ、全ての k 値においてpass@kの多様性を維持することが示された。