概要: Vision-Language-Action (VLA) モデルは最近、視覚、言語、運動モダリティを共同で推論することにより、具現化エージェントがますます複雑なタスクを実行できるようにしている。しかし、現状のVLA研究における「効率」という支配的な概念は、パラメータ数、FLOPs、またはトークンデコードのスループットなどで特徴づけられるが、ロボットプラットフォーム上の実際の性能を反映していないことを我々は見出した。現実世界の実行では、効率はタスク完了時間、軌道の滑らかさ、累積関節回転、モーションエネルギーといったシステムレベルの体現行動によって決まる。モデル圧縮、トークンのスパース化、アクション系列圧縮にわたる制御された研究を通じて、一般的な前提に挑戦するいくつかの観察を行う。(1) 従来の指標の下で計算を減らす方法は、タスク成功率を維持していても、エンドツーエンドの実行コストを増加させたり、動作品質を低下させることが多い。(2) システムレベルの体現効率指標は、従来の評価では隠れている、学習済みのアクションポリシーの性能差を明らかにする。(3) 文脈内プロンプティングや教師ありファインチューニングといった一般的な適応手法は、体現効率に対してごくわずかで指標特有の改善しか示さない。これらの手法は、ジャークやアクション頻度といったターゲットとされる体現効率指標を減らすことができる一方で、完成時間の延長など他の指標とのトレードオフが生じる可能性がある。総じて、我々の結果は、従来の推論効率指標が体現実行の重要な側面を見落とす可能性があることを示唆する。体現効率を組み込むことは、方針の挙動と実用的な性能をより包括的に把握でき、VLAモデルの公正でより総合的な比較を可能にする。
推論効率から具現化効率へ: 視覚-言語-行動モデルの効率指標を再検討する
arXiv cs.LG / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、パラメータ数、FLOPs、またはトークンデコードスループットといった標準的な効率指標は、ロボットプラットフォーム上の現実の具現化効率を反映していない、と主張している。
- タスク完了時間、軌道の平滑性、累積関節回転量、モーションエネルギーといったシステムレベルの指標は、具現化タスクにおけるポリシーの性能をより正確に把握できることを示している。
- 著者らは、モデル圧縮、トークンのスパース化、アクション列圧縮に関する制御された研究を通じて、従来の指標のもとで計算量を削減すると、タスク成功率が高くてもエンドツーエンドのコストが増大したり、動作品質が低下したりすることを示した。
- この知見は、インコンテキスト・プロンプティングや教師ありファインチューニングといった一般的な適応手法が、具現化効率に対してはごくわずかな、指標特異的な改善しかもたらさず、完了時間などの他の性能とトレードオフになる可能性があることを示している。
- 本研究は、実世界のロボットタスク全体での VLAモデルの比較をより公正かつ網羅的に行うために、具現化効率を評価に組み込むことを提案している。