vla-eval: Vision-Language-Actionモデルのための統一評価ハーネス

arXiv cs.AI / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

VLA evalは、WebSocketのMsgPackプロトコルとDockerベースの環境分離を通じて、モデル推論とベンチマーク実行を切り離すオープンソースの評価ハーネスです。
モデルは単一のpredict()メソッドを実装するだけで一度統合され、ベンチマークは4つのメソッドからなるインターフェースを介して統合され、完全なクロス評価マトリクスを実現します。
このフレームワークは13のシミュレーションベンチマークと6つのモデルサーバをサポートし、実行には次の2つのコマンドだけが必要です: vla eval serve および vla eval run。
エピソードのシャーディングとバッチ推論により47倍のスループット向上を実現し、約18分で2000件のLIBEROエピソードを評価できます。
著者らは3つのベンチマークにわたる再現性監査を実施し、未記載の要件、あいまいな終了セマンティクス、隠れた正規化統計を明らかにし、17のベンチマークにまたがる657件の公開結果を集約したVLAリーダーボードを公開しました。

note

日経XTECH

Reddit r/LocalLLaMA

Dev.to

Dev.to