大規模言語モデルベースのロボット用フィジカルAI「VLA(vision-language-action)モデル」において、1mm以下(サブミリ)の精度が必要な繊細なタスクを実現できるようになってきた。
米Google(グーグル)から独立したフィジカルAIのスタートアップ、米Physical Intelligence(PI)が、新たにVLA向けの軽量なオンライン強化学習技術を開発。現場で数分~数時間の試行錯誤をロボットに実施させると、人間による遠隔操作を上回る性能を実現できた(図1)。
これまでVLAは、基にしている基盤モデル「VLM(vision-language model)」の制約もあり、フィジカルAIとして用いた場合の空間的な精度に限界があると思われてきたが、PIはそれを覆し、VLAであっても接触が多く発生する細かいマニピュレーションタスクを実施可能なことを示した。
必ずしも力覚センサや触覚センサなどがハンドに備わっていなくとも、双腕の手先にカメラがあれば、サブミリ精度が必要な作業を数cmの近距離で観察できるため、visionのみでそれなりに高精度な作業が可能ということだ。VLAを事前学習したままの状態(zero-shot)ではこうした高精度な作業は難しいが、タスクに特化した追加の学習を強化学習によって実施することで可能にした。
強化学習の権威が創業
ロボット向けのフィジカルAIでは、ここ数年来、模倣学習ベースのVLAが技術進化をけん引してきた。グーグルが2022年に自社の大規模言語モデルをロボットの行動生成に応用した「SayCan」を発表したことがキッカケとなり1)、大規模言語モデルによる行動生成、いわゆるVLAが世界的な注目を集めるようになった。
PIの共同創業者らは、当時、グーグル内でSayCanを開発したチームであり、彼らがごっそり一斉退職して立ち上げたのがPIという企業である。
VLAについては当初は「ロボット遠隔操作データを大量に集めれば、言語や画像の領域と同様にモデルが高い汎化性を獲得し、様々なタスクに利用できるようになる」とのもくろみで開発が進められていた。
次のページ
模倣学習+オンライン強化学習へこの記事は日経Robotics購読者限定です


