ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH / 4/14/2026

📰 NewsSignals & Early TrendsModels & Research

Key Points

  • GoogleのVLA(vision-language-action)を基盤にしたロボット用フィジカルAIの実用性が進み、1mm以下のサブミリ精度が必要な繊細タスクを実行できる段階に到達したと報じられた。
  • Physical Intelligence(PI)はVLA向けに軽量なオンライン強化学習技術を開発し、数分〜数時間の現場試行錯誤で人間の遠隔操作を上回る性能を得たという。
  • これまでVLAはVLM由来の制約から空間的精度に限界があると見られていたが、触覚/力覚センサがなくても双腕のカメラ観察とタスク特化の追加学習で、接触が多い細かなマニピュレーションを可能にした。
  • VLAの発展背景として、Googleが2022年にロボット行動生成へ大規模言語モデルを適用した「SayCan」を発表した流れがあり、PIは当時SayCan開発チームの関係者が創業した点も示された。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 大規模言語モデルベースのロボット用フィジカルAI「VLA(vision-language-action)モデル」において、1mm以下(サブミリ)の精度が必要な繊細なタスクを実現できるようになってきた。

 米Google(グーグル)から独立したフィジカルAIのスタートアップ、米Physical Intelligence(PI)が、新たにVLA向けの軽量なオンライン強化学習技術を開発。現場で数分~数時間の試行錯誤をロボットに実施させると、人間による遠隔操作を上回る性能を実現できた(図1)。

図1 1mm以下の精度が必要な作業をVLAで実現
図1 1mm以下の精度が必要な作業をVLAで実現
VLAにオンライン強化学習を施す手法を開発し、数時間の試行錯誤を経て、1mm以下の精度が必要な作業の成功率・スループットを大幅に向上させた。写真は双腕で結束バンドを締結している様子。(写真:Physical Intelligence)
[画像のクリックで拡大表示]

 これまでVLAは、基にしている基盤モデル「VLM(vision-language model)」の制約もあり、フィジカルAIとして用いた場合の空間的な精度に限界があると思われてきたが、PIはそれを覆し、VLAであっても接触が多く発生する細かいマニピュレーションタスクを実施可能なことを示した。

 必ずしも力覚センサや触覚センサなどがハンドに備わっていなくとも、双腕の手先にカメラがあれば、サブミリ精度が必要な作業を数cmの近距離で観察できるため、visionのみでそれなりに高精度な作業が可能ということだ。VLAを事前学習したままの状態(zero-shot)ではこうした高精度な作業は難しいが、タスクに特化した追加の学習を強化学習によって実施することで可能にした。

強化学習の権威が創業

 ロボット向けのフィジカルAIでは、ここ数年来、模倣学習ベースのVLAが技術進化をけん引してきた。グーグルが2022年に自社の大規模言語モデルをロボットの行動生成に応用した「SayCan」を発表したことがキッカケとなり1)、大規模言語モデルによる行動生成、いわゆるVLAが世界的な注目を集めるようになった。

 PIの共同創業者らは、当時、グーグル内でSayCanを開発したチームであり、彼らがごっそり一斉退職して立ち上げたのがPIという企業である。

 VLAについては当初は「ロボット遠隔操作データを大量に集めれば、言語や画像の領域と同様にモデルが高い汎化性を獲得し、様々なタスクに利用できるようになる」とのもくろみで開発が進められていた。

次のページ

模倣学習+オンライン強化学習へ

この記事は日経Robotics購読者限定です