ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH / 4/14/2026

📰 NewsSignals & Early TrendsModels & Research

Read original →

共有:

Key Points

GoogleのVLA（vision-language-action）を基盤にしたロボット用フィジカルAIの実用性が進み、1mm以下のサブミリ精度が必要な繊細タスクを実行できる段階に到達したと報じられた。
Physical Intelligence（PI）はVLA向けに軽量なオンライン強化学習技術を開発し、数分〜数時間の現場試行錯誤で人間の遠隔操作を上回る性能を得たという。
これまでVLAはVLM由来の制約から空間的精度に限界があると見られていたが、触覚/力覚センサがなくても双腕のカメラ観察とタスク特化の追加学習で、接触が多い細かなマニピュレーションを可能にした。
VLAの発展背景として、Googleが2022年にロボット行動生成へ大規模言語モデルを適用した「SayCan」を発表した流れがあり、PIは当時SayCan開発チームの関係者が創業した点も示された。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

［画像のクリックで別ページへ］

　大規模言語モデルベースのロボット用フィジカルAI「VLA（vision-language-action）モデル」において、1mm以下（サブミリ）の精度が必要な繊細なタスクを実現できるようになってきた。

　米Google（グーグル）から独立したフィジカルAIのスタートアップ、米Physical Intelligence（PI）が、新たにVLA向けの軽量なオンライン強化学習技術を開発。現場で数分～数時間の試行錯誤をロボットに実施させると、人間による遠隔操作を上回る性能を実現できた（図1）。

図1　1mm以下の精度が必要な作業をVLAで実現

VLAにオンライン強化学習を施す手法を開発し、数時間の試行錯誤を経て、1mm以下の精度が必要な作業の成功率・スループットを大幅に向上させた。写真は双腕で結束バンドを締結している様子。（写真：Physical Intelligence）

[画像のクリックで拡大表示]

　これまでVLAは、基にしている基盤モデル「VLM（vision-language model）」の制約もあり、フィジカルAIとして用いた場合の空間的な精度に限界があると思われてきたが、PIはそれを覆し、VLAであっても接触が多く発生する細かいマニピュレーションタスクを実施可能なことを示した。

　必ずしも力覚センサや触覚センサなどがハンドに備わっていなくとも、双腕の手先にカメラがあれば、サブミリ精度が必要な作業を数cmの近距離で観察できるため、visionのみでそれなりに高精度な作業が可能ということだ。VLAを事前学習したままの状態（zero-shot）ではこうした高精度な作業は難しいが、タスクに特化した追加の学習を強化学習によって実施することで可能にした。

強化学習の権威が創業

　ロボット向けのフィジカルAIでは、ここ数年来、模倣学習ベースのVLAが技術進化をけん引してきた。グーグルが2022年に自社の大規模言語モデルをロボットの行動生成に応用した「SayCan」を発表したことがキッカケとなり^1）、大規模言語モデルによる行動生成、いわゆるVLAが世界的な注目を集めるようになった。

　PIの共同創業者らは、当時、グーグル内でSayCanを開発したチームであり、彼らがごっそり一斉退職して立ち上げたのがPIという企業である。

　VLAについては当初は「ロボット遠隔操作データを大量に集めれば、言語や画像の領域と同様にモデルが高い汎化性を獲得し、様々なタスクに利用できるようになる」とのもくろみで開発が進められていた。

模倣学習＋オンライン強化学習へ

この記事は日経Robotics購読者限定です

💡 Insights using this article

This article is featured in our daily AI news digest — key takeaways and action items at a glance.

📅 4/14DailyView insight →

Black Hat Asia

AI Business

Agentic coding at enterprise scale demands spec-driven development

VentureBeat

How to build effective reward functions with AWS Lambda for Amazon Nova model customization

Amazon AWS AI Blog

How 25 Students Went from Idea to Deployed App in 2 Hours with Google Antigravity

Dev.to

MCP Protocol Explained: Make Any API Claude-Compatible in 10 Minutes

Dev.to

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

Key Points

強化学習の権威が創業

次のページ

💡 Insights using this article

Related Articles

Black Hat Asia

Agentic coding at enterprise scale demands spec-driven development

How to build effective reward functions with AWS Lambda for Amazon Nova model customization

How 25 Students Went from Idea to Deployed App in 2 Hours with Google Antigravity

MCP Protocol Explained: Make Any API Claude-Compatible in 10 Minutes

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer