XPUにおける視覚・言語・行動(VLA)モデルの特性評価:オンロボット導入の制約と加速

arXiv cs.RO / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、視覚・言語・行動(VLA)モデルをロボット上でデプロイするために、デスクトップ級GPUではなく、厳しいコスト/エネルギー制約下でのリアルタイム推論の制約に焦点を当てて分析しています。
  • CET(Cost, Energy, Time)という指標を用いたモデル–ハードウェアの共同特性評価と、クロスアクセラレータのリーダーボード(GPU/XPU/NPU向け)を提示し、制御レート要件を満たしつつもフラッグシップGPUよりエッジ端末の方がコスト/エネルギー効率的になり得ることを示しています。
  • 詳細なプロファイリングにより、推論が常に「計算律速のVLMバックボーン」と「メモリ律速のAction Expert」の2相に分かれる傾向が明らかにされ、この相ごとの未利用がハードウェア効率を下げることがあります。
  • 推論の拡散冗長性を削減し、非同期パイプライン並列性を可能にするDP-CacheとV-AEFusionを提案し、成功率の低下はわずかに抑えながら、GPUで最大2.9倍、エッジNPUで最大6倍の高速化を報告しています。