π0.7:創発的な能力を持つ操縦可能な汎用ロボティクス基盤モデル

arXiv cs.LG / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文では、pi0.7という操縦可能なロボティクス基盤モデルを提案し、タスクごとの専用再学習をせずに幅広い状況で“すぐに”高い性能を発揮できることを目指しています。
  • pi0.7は、未見の環境で複雑な言語指示に従えるほか、キッチン家電を扱う多段階タスクなどにも対応し、さらにエンボディメントを跨いだゼロショット一般化(例:事前に見ずに洗濯物をたたむ)を示します。
  • エスプレッソマシンの操作のような難しいタスクでも、より特化した強化学習で微調整されたモデルに匹敵するレベルの性能を、ゼロショットで達成すると報告されています。
  • pi0.7の中核は、学習時に「多様なコンテキスト条件付け」を行う点で、プロンプトには言語による目標だけでなく、戦略を符号化する追加のマルチモーダルな操縦信号(例:性能メタデータやサブゴール画像)が含まれます。
  • デモンストレーションに加えて、失敗を含み得る自律データや、ロボット以外から取得したデータも活用し、複数のロボットプラットフォームと速度・器用さ・言語追従・合成的タスク一般化などのタスクで評価しています。

Abstract

We present a new robotic foundation model, called {\pi}_{0.7}, that can enable strong out-of-the-box performance in a wide range of scenarios. {\pi}_{0.7} can follow diverse language instructions in unseen environments, including multi-stage tasks with various kitchen appliances, provide zero-shot cross-embodiment generalization, for example enabling a robot to fold laundry without seeing the task before, and perform challenging tasks such as operating an espresso machine out of the box at a level of performance that matches much more specialized RL-finetuned models. The main idea behind {\pi}_{0.7} is to use diverse context conditioning during training. This conditioning information, contained in the prompt, makes it possible to steer the model precisely to perform many tasks with different strategies. It is conditioned not just on a language command that describes what it should do, but on additional multimodal information that also describes the manner or strategy in which it should do it, including metadata about task performance and subgoal images. This enables {\pi}_{0.7} to use very diverse data, including demonstrations, potentially suboptimal (autonomous) data including failures, and data from non-robot sources. Our experiments evaluate {\pi}_{0.7} across numerous tasks with multiple robot platforms, on tasks that require speed and dexterity, language following, and compositional task generalization.