Physical Intelligence は、サンフランシスコ拠点の2歳のロボティクス・スタートアップだが、ベイエリアで最も注目されるAI企業の一つへと静かに成長した。同社は木曜日、最新モデルが、明示的に学習したことのないタスクをロボットに実行させられることを示す 新たな研究 を公開した。これは、同社自身の研究者によれば、彼らにとっても想定外だったという。
新モデルは π0.7 と呼ばれ、同社が「汎用ロボットの脳」という長年追い求めてきた目標に向けた、初期ではあるが意味のある一歩だとしている。つまり、見知らぬタスクを指示し、平易な言葉でコーチし、そして実際にやり遂げられるものだ。もしこれらの結果が厳密な検証に耐えるなら、ロボティックAIが、同分野が大規模言語モデルで目にしてきたのと似た転換点に近づいている可能性を示唆する。つまり、能力が基盤となるデータが予測すると考えられる以上の形で累積し、加速度的に伸び始める領域だ。
しかし最初に:論文の中核となる主張は、「合成的汎化(compositional generalization)」――つまり、異なる文脈で学んだスキルを組み合わせて、モデルがこれまで遭遇したことのない問題を解く能力だ。これまでのところ、ロボット学習における標準的なアプローチは、基本的には機械的な暗記に近かった。すなわち、特定のタスクについてデータを集め、そのデータで専門家モデルを学習させ、そして新しいタスクごとにそれを繰り返すのである。Physical Intelligence の π0.7 は、このパターンを壊す、と同社は言う。
「それが、その閾値を越えるんです。つまり、集めたデータのために用意した“まさにそのこと”だけをやる段階から、新しいやり方で物事を組み替える(リミックスする)段階へ移行したときに、能力はデータ量に対して線形以上に伸びるんです。その“それ以上に有利なスケーリング特性”は、ほかの領域、たとえば言語や視覚でも見られたものです」と語るのは、Physical Intelligence の共同創業者であり、ロボティクス向けAIを専門とするUCバークレーの教授、Sergey Levine だ。
論文の中で最も印象的な実演は、モデルが学習中ほとんど見たことのないエアフライヤーを扱うものだ。研究チームが調べたところ、学習データ全体の中で関連するエピソードは2つしか見つからなかった。1つは、別のロボットがエアフライヤーのフタを閉じる動作を単に押し込んだもの。そしてもう1つは、オープンソースのデータセットで、別のロボットが、誰かの指示に従って、その中にプラスチックボトルを置いたものだ。モデルは、そこに加えて、より広範なWebベースの事前学習データも織り合わせることで、家電としてその仕組みを機能する理解へと“合成”していたのだ。
「知識がどこから来ているのか、あるいはどこで成功し、どこで失敗するのかを追跡するのはとても難しいです」と、Pi の研究者でスタンフォードの計算機科学の博士課程学生でもある Lucy Shi は言う。それでも、コーチはゼロだったにもかかわらず、モデルはその家電を使ってサツマイモを調理しようと、ひとまずはそれらしい試みを行った。手順ごとの口頭指示――本質的には、新入社員に何かを説明するように人間がロボットをタスクの中へ連れていく形――を与えると、実際に成功した。
このコーチング能力が重要なのは、それが示唆するところとして、ロボットを新しい環境に投入し、追加のデータ収集やモデルの再学習なしにリアルタイムで改善できる可能性があるからだ。
では、ここで一体何が意味するのだろうか? 研究者たちは、モデルの限界については気後れせず、過度に先走らないよう慎重だ。少なくとも1つのケースでは、彼らは自分たちのチームにこそ原因があると、はっきり指している。
「時には、失敗の要因はロボットやモデルにあるのではないんです」 と Shi は言う。「それは私たちにあります。プロンプト・エンジニアリングがうまくできていない。 」彼女は、初期のエアフライヤー実験について語り、成功率が5%だったという。その後、タスクがモデルにどう説明されるかを洗練するのにおよそ30分を費やしたところ、成功率は95%まで跳ね上がった、と彼女は述べる。

また、このモデルは、単一の高レベル指示から自律的に複雑な多段階タスクを実行する能力も、まだ十分ではない。 「『ねえ、それ焼いて』みたいに言えば、それでトーストを作ってくれるようなことはできないんです」と Levine は言う。「ただし、順を追って説明すれば――たとえば“トースターなら、この部分を開けて、あのボタンを押して、これをやって”――そうすれば、実際かなりうまくいく傾向があります」
チームはまた、ロボティクスの標準化されたベンチマークは実際のところ存在しないため、自社の主張に対する外部からの検証が難しいと認めた。その代わり、同社はπ0.7を自社の過去の専門モデルと比較した——個々のタスクごとに作り込まれ、個別に学習させたシステムである——そして、一般化モデルは、コーヒーを淹れること、洗濯物をたたむこと、箱を組み立てることなど、幅広い複雑な作業において、同社が求める性能に合致していることを見いだした。
研究について最も注目すべき点——研究者たちの言葉をそのまま信じるなら——は、単一のデモではなく、結果が彼らにどれほど意外だったかという度合いだ。訓練データに何が入っているのかを正確に把握し、それゆえモデルができる/できないことが何かを理解するのが仕事の人々にとって、という意味である。
「私の経験上、データの中身を深く理解していれば、モデルができることをある程度“当て勘”で予測できるんです」と、Physical Intelligenceの研究科学者であるAshwin Balakrishnaは言う。「驚くことはめったにありません。でもここ数カ月は、本当に驚いたのが初めてでした。ギアセットをたまたま買ってきて、ロボットに『ねえ、これを回転させられる?』と聞いたら、それがそのまま動いたんです。」
Levineは、研究者たちが初めてGPT-2によって『アンデスのユニコーン』についての物語が生成された場面に遭遇したときのことを振り返った。「え、ちょっと待って、それってペルーのユニコーンについて知ったのはどこからなんだ?」彼は言う。「そんなに奇妙な組み合わせです。そして、それをロボティクスで見られるのは、本当に特別なことだと思います。」
当然、批評家はここに不快な非対称性がある点を指摘するだろう。言語モデルは学習に使うための“ネット全体”を持っていた。一方でロボットにはそれがないし、どれだけ巧妙なプロンプトを工夫しても、その差を完全には埋められない。しかし、Levineがどこに懐疑の目が向くと考えているかというと、まったく別の場所を挙げた。
「どんなロボティクスの“汎化”デモでも、常に投げられる批判があります。それは、タスクがなんだか退屈だ、というものです」と彼は言う。「ロボットはバック転をしていない。」その見方に反論しつつ、印象的なロボットデモと、実際に汎化するロボットシステムとの違いこそがポイントだと主張する。彼によれば、汎化は、入念に振り付けられたスタントよりも、いつも派手に見えないものになるはずだ——しかし、それでも汎化のほうがはるかに役に立つ。
論文自体も、いたるところで慎重な言い回しを用いており、π0.7が「汎化の“初期の兆候”」や「新しい能力の“初期の実演”」を示していると説明している。これらは研究結果であって、実際に展開された製品ではない。
これらの調査結果に基づくシステムが、現実世界での展開にどの時点で十分だろうかと直接尋ねられると、Levineは推測を拒んだ。「楽観的になる十分な理由があると思いますし、少なくともここ数年は、私が2年ほど前に想定していたよりも速いスピードで進んでいます」と彼は言う。「ただ、その問いに答えるのは私にはとても難しいです。」
Physical Intelligenceはこれまでに10億ドル超を調達しており、直近の評価額は56億ドルだった。同社への投資家の熱意の大きな部分は、共同創業者であるLachy Groomにまでさかのぼる。彼はシリコンバレーで最も評価の高いエンジェル投資家の一人として長年活動し、Figma、Notion、Rampなどに投資してきた。そのうえで、Physical Intelligenceこそが自分が探していた会社だと判断したのだ。この経歴によって、スタートアップは、投資家に商業化の時期を提示することを拒否していたとしても、真剣な機関投資家マネーを集めることに成功してきた。
同社は現在、その評価額をほぼ2倍の110億ドルに引き上げる新ラウンドに向けた協議を行っていると伝えられている。チームはコメントを控えた。
