AI Navigate

vla-eval: Vision-Language-Actionモデルのための統一評価ハーネス

arXiv cs.AI / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • VLA evalは、WebSocketのMsgPackプロトコルとDockerベースの環境分離を通じて、モデル推論とベンチマーク実行を切り離すオープンソースの評価ハーネスです。
  • モデルは単一のpredict()メソッドを実装するだけで一度統合され、ベンチマークは4つのメソッドからなるインターフェースを介して統合され、完全なクロス評価マトリクスを実現します。
  • このフレームワークは13のシミュレーションベンチマークと6つのモデルサーバをサポートし、実行には次の2つのコマンドだけが必要です: vla eval serve および vla eval run。
  • エピソードのシャーディングとバッチ推論により47倍のスループット向上を実現し、約18分で2000件のLIBEROエピソードを評価できます。
  • 著者らは3つのベンチマークにわたる再現性監査を実施し、未記載の要件、あいまいな終了セマンティクス、隠れた正規化統計を明らかにし、17のベンチマークにまたがる657件の公開結果を集約したVLAリーダーボードを公開しました。