要旨: Vision-Language-Action(VLA)モデルは、強力な視覚・言語の事前知識によりロボット制御を前進させます。しかし、既存のVLAの多くは事前学習を教師ありの行動模倣(behavior cloning)として捉えており、ロボット学習の本質を、時間的なタスク進捗を理解しながら到達目標を実現する過程であるという点に見落としています。私たちは、
\textbf{PRTS}(\textbf{P}rimitive \textbf{R}easoning and \textbf{T}asking \textbf{S}ystem)を提案します。これは、目標条件付き強化学習によって事前学習を再定式化するVLA基盤モデルです。言語による指示を目標として扱い、コントラスト強化学習を用いることで、PRTSは統一された埋め込み空間を学習します。このとき、状態・行動と目標の埋め込みの内積が、割引率を考慮した目標充足(goal occupancy)の対数に近似し、現在の状態・行動から言語で指定された目標に到達する確率を定量的に評価できます。これは静的な意味合わせ以上に、物理的な実現可能性を測るものです。PRTSは、この密な目標到達可能性の監督信号を、報酬注釈なしでオフライン軌道から直接引き出し、役割を考慮した因果マスクによってVLMバックボーンに組み込みます。これにより、標準的な行動模倣に比べてオーバーヘッドはほとんど無視できます。この枠組みは、高レベルの推論システムに固有の目標到達可能性の認識を与え、意味的推論と時間的なタスク進捗を橋渡しし、さらに目標条件付きの行動予測にも利益をもたらします。多様な操作(manipulation)および身体化された推論(embodied-reasoning)データの167Bトークンで事前学習されたPRTSは、LIBERO、LIBERO-Pro、LIBERO-Plus、SimplerEnv、および現実世界の14の複雑タスクからなる一連のベンチマークで最先端の性能に到達します。とりわけ、長いホライズン(長期)で接触が多い設定や、ゼロショットの新規指示(novel-instruction)設定で顕著な改善が見られます。これにより、目標到達可能性の認識を注入することが、実行成功率と、汎用ロボット基盤ポリシーの長期的な計画の両方を大きく向上させることが確認されます。
PRTS:対照的表現による原始的推論・タスキングシステム
arXiv cs.AI / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- PRTS(Primitive Reasoning and Tasking System)は、新しいビジョン・言語・アクション(VLA)の基盤モデルで、ロボットの事前学習を教師あり行動模倣から目標条件付き強化学習へと作り直します。
- 言語指示をゴールとして扱い、対照的強化学習を用いることで、状態・行動とゴールの埋め込みを共通空間に学習し、ゴール到達可能性を時系列の観点で定量化します。
- 報酬アノテーションなしでオフライン軌跡から密なゴール到達性の教師信号を獲得し、役割対応の因果マスクによってVLMバックボーンへ統合します(追加コストはほぼ無視できるとしています)。
- 167Bトークンで事前学習した結果、LIBERO各種やSimplerEnv、さらに現実世界の14複雑タスクで最先端の性能を達成し、とくに長期ホライズン・接触が多い環境・ゼロショットの新規指示で大きな改善が見られます。
- 要するに、本手法は意味的なゴール推論と時間的なタスク進捗をつなぐことで、汎用ロボット方策の実行成功と長期計画の両方を高めます。




