vla-eval: Vision-Language-Actionモデルのための統一評価ハーネス
arXiv cs.AI / 2026/3/17
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- VLA evalは、WebSocketのMsgPackプロトコルとDockerベースの環境分離を通じて、モデル推論とベンチマーク実行を切り離すオープンソースの評価ハーネスです。
- モデルは単一のpredict()メソッドを実装するだけで一度統合され、ベンチマークは4つのメソッドからなるインターフェースを介して統合され、完全なクロス評価マトリクスを実現します。
- このフレームワークは13のシミュレーションベンチマークと6つのモデルサーバをサポートし、実行には次の2つのコマンドだけが必要です: vla eval serve および vla eval run。
- エピソードのシャーディングとバッチ推論により47倍のスループット向上を実現し、約18分で2000件のLIBEROエピソードを評価できます。
- 著者らは3つのベンチマークにわたる再現性監査を実施し、未記載の要件、あいまいな終了セマンティクス、隠れた正規化統計を明らかにし、17のベンチマークにまたがる657件の公開結果を集約したVLAリーダーボードを公開しました。

