StreamingVLA: アクションフローマッチングと適応的アーリー観測によるストリーミング視覚-言語-行動モデル
arXiv cs.RO / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- StreamingVLAは、従来のVision-Language-Action(VLA)モデルが「観測→行動生成→実行」を逐次処理するために生じる待ち時間と高いレイテンシを、ストリーミング方式で低減することを狙った提案である。
- 行動生成の遅延と実行の遅延を重ねるために、アクションのチャンク分割に依存せず「action flow matching」を用い、チャンク単位のデノイズではなくアクションフロー軌跡を学習する設計になっている。
- さらに「action saliency-aware adaptive observation」により、実行と観測のレイテンシを並列化(オーバーラップ)し、頻繁な停止(halting)を抑えつつ実行の流暢性を維持する。
- 性能を落とさずに、レイテンシを2.4倍高速化し、実行のhaltingを6.5倍減らしたと報告している。



