科学的プロセスを報いる:エージェント型データ解析におけるプロセス・レベル報酬モデリング
arXiv cs.CL / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存の汎用PRM(Process Reward Models)がエージェント型データ解析を十分に監督できず、「サイレントエラー」を見逃したり、必要な探索をグラウンディング失敗と誤認して罰したりしがちなことを示しています。
- これに対処するため、環境に応じたDataPRMという新しい生成プロセス報酬モデルを提案し、中間実行状態を能動的にプローブしてサイレントな失敗を検出できるようにします。
- DataPRMは反省(reflection)を考慮した三値(ternary)の報酬戦略を用い、修正可能なグラウンディングエラーと回復不能な誤りを切り分けることで、実行品質との整合性を高めます。
- 多様性駆動の軌跡生成と知識を加えたステップ単位の注釈により、8,000件超の高品質な学習インスタンスを構築し、下流のポリシーLLMの性能向上を示しています。
- DataPRMを強化学習に統合するとベンチマークが大きく改善し(例:DABenchで78.73%、TableBenchで64.84%)、プロセス・レベルの報酬監督がデータ解析エージェントに有効であることが裏付けられています。

