検証可能な報酬を超えて:強化ファインチューニング用SWEエージェントのルーブリックベースGRM

arXiv cs.LG / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、ソフトウェア工学(SWE)タスク向けのLLMエージェントのエンドツーエンド・ファインチューニングが、最終的にユニットテストが通るかどうかといった二値の終端報酬に依存しがちであり、マルチステップの途中行動を改善するための指針が不足していると指摘しています。
  • そこで、人が設計したルーブリックを用いて振る舞いの特定のパターンを「促進/抑制」するルーブリックベースの生成報酬モデル(GRM)を提案し、終端のみのフィードバックよりも学習のための信号を豊かにします。
  • ルーブリックに基づくフィードバックを活用し、より有益な軌跡(トラジェクトリ)を選別することで、学習データ収集の質を高めるための軌跡フィルタリングを行います。
  • SWEタスクに対する強化ファインチューニング(RFT)では、ルーブリックベースGRMが終端スコアのみのリジェクション・サンプリングを上回り、望ましくない挙動をより抑え、望ましい挙動をより促し、最終的なテスト精度を改善します。
  • 本研究はarXivの新規発表(arXiv:2604.16335v1)として提示されており、既存プロダクトの単なる改良ではなく新しい研究貢献であることが示されています。