ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH / 4/13/2026

📰 NewsSignals & Early TrendsModels & Research

Read original →

共有:

Key Points

GoogleのVLM/LLM系のVLAの流れを背景に、Physical Intelligence（PI）がロボット用フィジカルAI「VLA」で1mm以下のサブミリ精度が必要な作業を可能にした
PIはVLA向けの軽量なオンライン強化学習技術を開発し、現場で数分〜数時間の試行錯誤によって人間の遠隔操作を上回る性能を実現した
触覚/力覚センサがなくても、双腕の手先カメラによる数cmの近距離視覚観察と、タスク特化の追加学習（zero-shotではなく強化学習）で高精度作業を成立させた
VLAは当初、ロボット遠隔操作データの大量収集で汎化性を高める発想が中心だったが、PIは模倣中心からオンライン強化学習へ発展させる方向性を示した

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

［画像のクリックで別ページへ］

　大規模言語モデルベースのロボット用フィジカルAI「VLA（vision-language-action）モデル」において、1mm以下（サブミリ）の精度が必要な繊細なタスクを実現できるようになってきた。

　米Google（グーグル）から独立したフィジカルAIのスタートアップ、米Physical Intelligence（PI）が、新たにVLA向けの軽量なオンライン強化学習技術を開発。現場で数分～数時間の試行錯誤をロボットに実施させると、人間による遠隔操作を上回る性能を実現できた（図1）。

図1　1mm以下の精度が必要な作業をVLAで実現

VLAにオンライン強化学習を施す手法を開発し、数時間の試行錯誤を経て、1mm以下の精度が必要な作業の成功率・スループットを大幅に向上させた。写真は双腕で結束バンドを締結している様子。（写真：Physical Intelligence）

[画像のクリックで拡大表示]

　これまでVLAは、基にしている基盤モデル「VLM（vision-language model）」の制約もあり、フィジカルAIとして用いた場合の空間的な精度に限界があると思われてきたが、PIはそれを覆し、VLAであっても接触が多く発生する細かいマニピュレーションタスクを実施可能なことを示した。

　必ずしも力覚センサや触覚センサなどがハンドに備わっていなくとも、双腕の手先にカメラがあれば、サブミリ精度が必要な作業を数cmの近距離で観察できるため、visionのみでそれなりに高精度な作業が可能ということだ。VLAを事前学習したままの状態（zero-shot）ではこうした高精度な作業は難しいが、タスクに特化した追加の学習を強化学習によって実施することで可能にした。

強化学習の権威が創業

　ロボット向けのフィジカルAIでは、ここ数年来、模倣学習ベースのVLAが技術進化をけん引してきた。グーグルが2022年に自社の大規模言語モデルをロボットの行動生成に応用した「SayCan」を発表したことがキッカケとなり^1）、大規模言語モデルによる行動生成、いわゆるVLAが世界的な注目を集めるようになった。

　PIの共同創業者らは、当時、グーグル内でSayCanを開発したチームであり、彼らがごっそり一斉退職して立ち上げたのがPIという企業である。

　VLAについては当初は「ロボット遠隔操作データを大量に集めれば、言語や画像の領域と同様にモデルが高い汎化性を獲得し、様々なタスクに利用できるようになる」とのもくろみで開発が進められていた。

模倣学習＋オンライン強化学習へ

この記事は日経Robotics購読者限定です