概要: 現在のロボティクス評価は、いまだに大部分が二値の成功率に支配されており、豊かな実行プロセスを単一の結果へと圧縮してしまうため、進捗、効率、安定性といった重要な特性が見えにくくなっています。この制約に対処するために、本研究ではPRM-as-a-Judge(審査官としてのPRM)を提案します。これは、プロセス・リワード・モデル(PRM)を活用し、軌道動画(トラジェクトリ・ビデオ)から観測シーケンスに基づいてタスクの進捗を推定することで、方策の実行を直接監査する「高密度評価」パラダイムです。このパラダイムの中核には、OPD(Outcome-Process-Diagnosis)という指標体系があり、タスクに整合した進捗ポテンシャルによって実行品質を明示的に形式化します。本定式化では、高密度なロボティクス評価を二つの公理的性質によって特徴づけます。すなわち、経路整合的な加法集約を要求するマクロ整合性、そして微細な物理的変化への感度を要求するミクロ分解能です。この枠組みにおいて、ポテンシャルに基づくPRMの判定は、高密度評価の自然な具体化を与えます。また、誘導されたスカラー・ポテンシャルにより、マクロ整合性が直接導かれます。さらに、RoboPulseを用いてミクロ分解能の性質を実験的に検証します。RoboPulseは、微小スケールの進捗識別を探るために特化して設計された診断用ベンチマークであり、複数の軌道学習済みPRM判定器が、識別的な類似度ベース手法や汎用の基盤モデル判定器を上回ることが示されます。最後に、PRM-as-a-JudgeとOPD指標体系を活用して、長い時間軸のタスクにわたる主流の方策パラダイムに対して体系的な監査を行い、結果のみの指標では見えない行動上の兆候や失敗モードを明らかにします。
PRM-as-a-Judge:微細なロボティクス監査のための高密度評価パラダイム
arXiv cs.RO / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、二値の成功率のみを用いる従来のロボティクス評価では、進捗、効率、安定性といった重要な実行品質を捉えられないと主張する。
- 観測シーケンスからタスクの進捗を推定することで、軌跡ビデオに基づいて政策実行を監査する、プロセス・リワード・モデル(Process Reward Models)による高密度評価手法「PRM-as-a-Judge」を提案する。
- 実行品質を、タスクに整合した進捗のポテンシャルによって定義する「OPD(Outcome-Process-Diagnosis)」という指標フレームワークを導入する。
- 高密度評価を、2つの公理的性質――マクロ整合性(加法的かつ経路整合的な集約)とマイクロ分解能(物理的な変化の微細さへの感度)――として形式化し、それらをポテンシャルに基づくPRMジャッジと結び付ける。
- RoboPulse診断ベンチマークでの実験により、PRMジャッジが類似度ベースの識別器や汎用の基盤モデルのジャッジよりも優れていることが示される。さらに著者らは、PRM-as-a-JudgeとOPDを用いて、長期ホライズンの政策パラダイムにまたがる隠れた行動シグネチャや失敗モードを明らかにする。
