広告

[P] PhAIL(phail.ai)– 実機上のロボットAIのためのオープンベンチマーク。最高モデル:人間のスループットの5%。4分ごとに助けが必要。

Reddit r/MachineLearning / 2026/4/2

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • PhAIL(phail.ai)プロジェクトは、生産指標であるUnits Per Hour(UPH)やMean Time Between Failures(MTBF)を用いて、実DROIDハードウェア上でVLAロボットモデルをビン間のオーダーピッキングに対して評価するオープンベンチマークを導入します。
  • 4つの微調整済みモデルによるブラインドテストでは、最良の自律モデルでも人間のスループットの約5%にとどまり、またMTBFからは、失敗が十分に頻繁であるため自律にはほぼ連続的な見守り(ベビーシッター)が必要だと示されています。
  • 同じロボットでの人間による遠隔操作のベースラインははるかに高く(UPH 330に対し、モデルは18〜65)、主要なギャップはロボットの物理的能力ではなく、ポリシー(行動方策)の品質にあることを示唆します。
  • このベンチマークは透明性と改善を目的として設計されています。各実行には公開された同期動画とテレメトリが含まれ、さらにオープンなデータセット/学習スクリプトと、新しいチェックポイントのための投稿(サブミッション)経路も用意されています。
  • プロジェクトは評価の拡張(例:NVIDIA DreamZeroの追加)を計画しており、ピックアンドプレース以外の、現実世界のマニピュレーション課題についてコミュニティに提案を呼びかけています。

私はここ1年、単純な質問に答えようとしていました。つまり、VLAモデルは実際の商用タスクでどれくらい優れているのか?デモではなく、シミュレーションでもなく、10回中の成功率でもなく。実際のハードウェア上での本番環境の計測指標です。

どこにも誠実な数字が見つからなかったので、ベンチマークを作りました。

セットアップ: DROIDプラットフォーム。箱から箱へのオーダーピッキング――最も一般的な倉庫および工業系の作業の一つです。同一の実ロボットデータセットで微調整した4つのモデルを用意し、盲検評価(オペレーターはどのモデルが動いているか分からない状態)を行いました。私たちはUnits Per Hour(UPH)とMean Time Between Failures(MTBF)――現場の人が実際に使う指標――を測定します。

結果(全データ。すべての実行に対して動画とテレメトリをphail.aiで公開しています):

Model UPH MTBF
OpenPI (pi0.5) 65 4.0 min
GR00T 60 3.5 min
ACT 44 2.8 min
SmolVLA 18 1.2 min
Teleop / Finetuning(同じロボットを人が操作) 330
Human hands 1,331

OpenPIとGR00Tは、現時点のエピソード数では統計的に有意ではありません。追加で実行を集めています。

テレオペレーションのベースラインは、より公平な比較です。つまり同じハードウェアで、人がループに入る形です。これは5倍の差で、そのほとんどが方策(ポリシー)の質によるものです――ロボットは、どのモデルの指示よりも物理的にずっと速く動けます。人の手の値は、導入するかどうかを判断するときに倉庫オペレーターが比較に使う数字です。

MTBFの数値は、UPHよりも説得力があると言えるかもしれません。故障までの間隔が4分だと、「自律運転」は実質的に常時の見守り担当者が必要だということになります。自律性には、経済的価値を持つための閾値(しきいち)を超える必要があります。

すべての実行は公開されており、動画とテレメトリが同期されています。微調整データセット、学習スクリプト、提出(submission)経路はいずれもオープンです。あなたのモデルや微調整レシピならもっと良くできると思うなら、チェックポイントを提出してください。

私たちが欠けているモデルは何でしょう?次にNVIDIA DreamZeroを追加します。DROIDハードウェアで動作するチェックポイントがあるなら提出してください――あるいは、どんな内容を評価してほしいか教えてください。ピッキング&プレース以外のタスクで、汎用的なマニピュレーションを本当に試すものは何でしょうか?

More:

submitted by /u/svertix
[link] [comments]

広告