[P] PhAIL（phail.ai）– 実機上のロボットAIのためのオープンベンチマーク。最高モデル：人間のスループットの5%。4分ごとに助けが必要。

Reddit r/MachineLearning / 2026/4/2

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

PhAIL（phail.ai）プロジェクトは、生産指標であるUnits Per Hour（UPH）やMean Time Between Failures（MTBF）を用いて、実DROIDハードウェア上でVLAロボットモデルをビン間のオーダーピッキングに対して評価するオープンベンチマークを導入します。
4つの微調整済みモデルによるブラインドテストでは、最良の自律モデルでも人間のスループットの約5%にとどまり、またMTBFからは、失敗が十分に頻繁であるため自律にはほぼ連続的な見守り（ベビーシッター）が必要だと示されています。
同じロボットでの人間による遠隔操作のベースラインははるかに高く（UPH 330に対し、モデルは18〜65）、主要なギャップはロボットの物理的能力ではなく、ポリシー（行動方策）の品質にあることを示唆します。
このベンチマークは透明性と改善を目的として設計されています。各実行には公開された同期動画とテレメトリが含まれ、さらにオープンなデータセット／学習スクリプトと、新しいチェックポイントのための投稿（サブミッション）経路も用意されています。
プロジェクトは評価の拡張（例：NVIDIA DreamZeroの追加）を計画しており、ピックアンドプレース以外の、現実世界のマニピュレーション課題についてコミュニティに提案を呼びかけています。

私はここ1年、単純な質問に答えようとしていました。つまり、VLAモデルは実際の商用タスクでどれくらい優れているのか？デモではなく、シミュレーションでもなく、10回中の成功率でもなく。実際のハードウェア上での本番環境の計測指標です。

どこにも誠実な数字が見つからなかったので、ベンチマークを作りました。

セットアップ： DROIDプラットフォーム。箱から箱へのオーダーピッキング――最も一般的な倉庫および工業系の作業の一つです。同一の実ロボットデータセットで微調整した4つのモデルを用意し、盲検評価（オペレーターはどのモデルが動いているか分からない状態）を行いました。私たちはUnits Per Hour（UPH）とMean Time Between Failures（MTBF）――現場の人が実際に使う指標――を測定します。

結果（全データ。すべての実行に対して動画とテレメトリをphail.aiで公開しています）：

Model	UPH	MTBF
OpenPI (pi0.5)	65	4.0 min
GR00T	60	3.5 min
ACT	44	2.8 min
SmolVLA	18	1.2 min
Teleop / Finetuning（同じロボットを人が操作）	330	–
Human hands	1,331	–

OpenPIとGR00Tは、現時点のエピソード数では統計的に有意ではありません。追加で実行を集めています。

テレオペレーションのベースラインは、より公平な比較です。つまり同じハードウェアで、人がループに入る形です。これは5倍の差で、そのほとんどが方策（ポリシー）の質によるものです――ロボットは、どのモデルの指示よりも物理的にずっと速く動けます。人の手の値は、導入するかどうかを判断するときに倉庫オペレーターが比較に使う数字です。

MTBFの数値は、UPHよりも説得力があると言えるかもしれません。故障までの間隔が4分だと、「自律運転」は実質的に常時の見守り担当者が必要だということになります。自律性には、経済的価値を持つための閾値（しきいち）を超える必要があります。

すべての実行は公開されており、動画とテレメトリが同期されています。微調整データセット、学習スクリプト、提出（submission）経路はいずれもオープンです。あなたのモデルや微調整レシピならもっと良くできると思うなら、チェックポイントを提出してください。

私たちが欠けているモデルは何でしょう？次にNVIDIA DreamZeroを追加します。DROIDハードウェアで動作するチェックポイントがあるなら提出してください――あるいは、どんな内容を評価してほしいか教えてください。ピッキング＆プレース以外のタスクで、汎用的なマニピュレーションを本当に試すものは何でしょうか？

More:

リーダーボード＋エピソードの全データ：phail.ai
ホワイトペーパー：phail.ai/whitepaper.pdf
オープンソースのツールキット：github.com/Positronic-Robotics/positronic
詳細な調査結果：positronic.ro/introducing-phail

submitted by /u/svertix
[link] [comments]

Black Hat USA

AI Business

「ガラスコア基板」をAI半導体に、次世代パッケージ競うドイツ勢先行

日経XTECH

キオクシア、トヨタに迫る高収益に死角はあるか

日経XTECH

YouTubeがポッドキャスト機能を追加—AIレコメンドと「オートスピード」など

TechCrunch

AIと話すのにうんざり──MicrosoftがClaude Codeのライセンスを取り消し、Hacker Newsの他のAIリンクも削除し始める

Reddit r/artificial

[P] PhAIL（phail.ai）– 実機上のロボットAIのためのオープンベンチマーク。最高モデル：人間のスループットの5%。4分ごとに助けが必要。

要点

関連記事

Black Hat USA

「ガラスコア基板」をAI半導体に、次世代パッケージ競うドイツ勢先行

キオクシア、トヨタに迫る高収益に死角はあるか

YouTubeがポッドキャスト機能を追加—AIレコメンドと「オートスピード」など

AIと話すのにうんざり──MicrosoftがClaude Codeのライセンスを取り消し、Hacker Newsの他のAIリンクも削除し始める

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

「ガラスコア基板」をAI半導体に、次世代パッケージ競う ドイツ勢先行

キオクシア、トヨタに迫る高収益に死角はあるか

YouTubeがポッドキャスト機能を追加—AIレコメンドと「オートスピード」など

AIと話すのにうんざり──MicrosoftがClaude Codeのライセンスを取り消し、Hacker Newsの他のAIリンクも削除し始める

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

「ガラスコア基板」をAI半導体に、次世代パッケージ競うドイツ勢先行