私はここ1年、単純な質問に答えようとしていました。つまり、VLAモデルは実際の商用タスクでどれくらい優れているのか?デモではなく、シミュレーションでもなく、10回中の成功率でもなく。実際のハードウェア上での本番環境の計測指標です。
どこにも誠実な数字が見つからなかったので、ベンチマークを作りました。
セットアップ: DROIDプラットフォーム。箱から箱へのオーダーピッキング――最も一般的な倉庫および工業系の作業の一つです。同一の実ロボットデータセットで微調整した4つのモデルを用意し、盲検評価(オペレーターはどのモデルが動いているか分からない状態)を行いました。私たちはUnits Per Hour(UPH)とMean Time Between Failures(MTBF)――現場の人が実際に使う指標――を測定します。
結果(全データ。すべての実行に対して動画とテレメトリをphail.aiで公開しています):
| Model | UPH | MTBF |
|---|---|---|
| OpenPI (pi0.5) | 65 | 4.0 min |
| GR00T | 60 | 3.5 min |
| ACT | 44 | 2.8 min |
| SmolVLA | 18 | 1.2 min |
| Teleop / Finetuning(同じロボットを人が操作) | 330 | – |
| Human hands | 1,331 | – |
OpenPIとGR00Tは、現時点のエピソード数では統計的に有意ではありません。追加で実行を集めています。
テレオペレーションのベースラインは、より公平な比較です。つまり同じハードウェアで、人がループに入る形です。これは5倍の差で、そのほとんどが方策(ポリシー)の質によるものです――ロボットは、どのモデルの指示よりも物理的にずっと速く動けます。人の手の値は、導入するかどうかを判断するときに倉庫オペレーターが比較に使う数字です。
MTBFの数値は、UPHよりも説得力があると言えるかもしれません。故障までの間隔が4分だと、「自律運転」は実質的に常時の見守り担当者が必要だということになります。自律性には、経済的価値を持つための閾値(しきいち)を超える必要があります。
すべての実行は公開されており、動画とテレメトリが同期されています。微調整データセット、学習スクリプト、提出(submission)経路はいずれもオープンです。あなたのモデルや微調整レシピならもっと良くできると思うなら、チェックポイントを提出してください。
私たちが欠けているモデルは何でしょう?次にNVIDIA DreamZeroを追加します。DROIDハードウェアで動作するチェックポイントがあるなら提出してください――あるいは、どんな内容を評価してほしいか教えてください。ピッキング&プレース以外のタスクで、汎用的なマニピュレーションを本当に試すものは何でしょうか?
More:
- リーダーボード+エピソードの全データ:phail.ai
- ホワイトペーパー:phail.ai/whitepaper.pdf
- オープンソースのツールキット:github.com/Positronic-Robotics/positronic
- 詳細な調査結果:positronic.ro/introducing-phail
[link] [comments]



