Abstract
強化学習は、大規模言語モデルの推論を強化するための強力なアプローチとして注目されている一方で、根本的なジレンマに直面している。すなわち、簡単な問題で学習すると過学習が起きてpass@kの劣化につながる可能性があるが、難しい問題で学習すると報酬が疎になることが多い。最近の質問拡張(question augmentation)手法は、部分的な解答をヒントとして前置することでこの課題に対処している。しかし、一様なヒント提示は冗長な情報を導入しうる一方で、重要な推論のボトルネックを見落とす可能性がある。また、過剰なヒントは推論の多様性を低下させ、pass@kの劣化を引き起こしうる。私たちは、
\textbf{PieceHint} を提案する。これは、学習中に重要な推論ステップを戦略的に特定し、それらをヒントとして提供するヒント注入フレームワークである。異なる推論ステップの重要度をスコアリングし、問題の難易度に応じてヒントを選択的に割り当て、足場(scaffolding)を段階的に撤回することで、PieceHintはモデルがガイド付き学習から独立した推論へ移行できるようにする。6つの数学的推論ベンチマークでの実験では、提案手法により、私たちの1.5Bモデルが32Bのベースラインと同等の平均性能を達成しつつ、全ての k 値においてpass@kの多様性を維持することが示された。