強化学習のためのヒント付けの学習
arXiv cs.LG / 2026/4/2
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- GRPOは検証可能な報酬を用いた強化学習に有効だが、グループ内のすべてのロールアウトが同じ報酬を得ると「アドバンテージ崩壊」が起き、ほとんど、またはまったく学習シグナルが得られず失敗する可能性がある。
- 本論文は、強化学習のためのヒント学習であるHiLL(Hint Learning for Reinforcement Learning)を提案する。これは、オンザフライで適応的なヒントを生成する「ヒンター」ポリシーと、RLで難しいタスクを解く「推論者(reasoner)」ポリシーを共同学習する。
- HiLLは、ヒント生成を推論者の現在の誤ったロールアウトに条件付けすることで、固定された「一律の」足場(スキャフォールド)を使うのではなく、進行する失敗モードに合わせてヒントを調整することを狙う。
- 成功(正しい)軌跡がヒントにどれほど依存しているかを定量化する「ヒント依存度(hint reliance)」を導入し、さらに転移可能性(transferability)の議論を用いて、テスト時にヒントを取り除いても性能が向上するようなヒントの学習を行う。
- 複数のベンチマークにわたる実験により、HiLLがGRPOおよび先行する固定ヒントやヒントベースのベースラインを上回ることが示されており、著者らはGitHubで公開コードを提供している。
