ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

GoogleのVLA（vision-language-action）を基盤にしたロボット用フィジカルAIの実用性が進み、1mm以下のサブミリ精度が必要な繊細タスクを実行できる段階に到達したと報じられた。
Physical Intelligence（PI）はVLA向けに軽量なオンライン強化学習技術を開発し、数分〜数時間の現場試行錯誤で人間の遠隔操作を上回る性能を得たという。
これまでVLAはVLM由来の制約から空間的精度に限界があると見られていたが、触覚/力覚センサがなくても双腕のカメラ観察とタスク特化の追加学習で、接触が多い細かなマニピュレーションを可能にした。
VLAの発展背景として、Googleが2022年にロボット行動生成へ大規模言語モデルを適用した「SayCan」を発表した流れがあり、PIは当時SayCan開発チームの関係者が創業した点も示された。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

［画像のクリックで別ページへ］

　大規模言語モデルベースのロボット用フィジカルAI「VLA（vision-language-action）モデル」において、1mm以下（サブミリ）の精度が必要な繊細なタスクを実現できるようになってきた。

　米Google（グーグル）から独立したフィジカルAIのスタートアップ、米Physical Intelligence（PI）が、新たにVLA向けの軽量なオンライン強化学習技術を開発。現場で数分～数時間の試行錯誤をロボットに実施させると、人間による遠隔操作を上回る性能を実現できた（図1）。

図1　1mm以下の精度が必要な作業をVLAで実現

VLAにオンライン強化学習を施す手法を開発し、数時間の試行錯誤を経て、1mm以下の精度が必要な作業の成功率・スループットを大幅に向上させた。写真は双腕で結束バンドを締結している様子。（写真：Physical Intelligence）

[画像のクリックで拡大表示]

　これまでVLAは、基にしている基盤モデル「VLM（vision-language model）」の制約もあり、フィジカルAIとして用いた場合の空間的な精度に限界があると思われてきたが、PIはそれを覆し、VLAであっても接触が多く発生する細かいマニピュレーションタスクを実施可能なことを示した。

　必ずしも力覚センサや触覚センサなどがハンドに備わっていなくとも、双腕の手先にカメラがあれば、サブミリ精度が必要な作業を数cmの近距離で観察できるため、visionのみでそれなりに高精度な作業が可能ということだ。VLAを事前学習したままの状態（zero-shot）ではこうした高精度な作業は難しいが、タスクに特化した追加の学習を強化学習によって実施することで可能にした。

強化学習の権威が創業

　ロボット向けのフィジカルAIでは、ここ数年来、模倣学習ベースのVLAが技術進化をけん引してきた。グーグルが2022年に自社の大規模言語モデルをロボットの行動生成に応用した「SayCan」を発表したことがキッカケとなり^1）、大規模言語モデルによる行動生成、いわゆるVLAが世界的な注目を集めるようになった。

　PIの共同創業者らは、当時、グーグル内でSayCanを開発したチームであり、彼らがごっそり一斉退職して立ち上げたのがPIという企業である。

　VLAについては当初は「ロボット遠隔操作データを大量に集めれば、言語や画像の領域と同様にモデルが高い汎化性を獲得し、様々なタスクに利用できるようになる」とのもくろみで開発が進められていた。

模倣学習＋オンライン強化学習へ

この記事は日経Robotics購読者限定です

Black Hat Asia

AI Business

スポーツベッティングにおけるサッカーの試合予測に挑む機械学習モデル

AI-SCHOLAR

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

要点

強化学習の権威が創業

次のページ

関連記事

Black Hat Asia

スポーツベッティングにおけるサッカーの試合予測に挑む機械学習モデル

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

強化学習の権威が創業

次のページ

関連記事

Black Hat Asia

スポーツベッティングにおけるサッカーの試合予測に挑む機械学習モデル

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず