PokeVLA：総合的な世界知識ガイダンスでポケットサイズの視覚言語行動モデルを強化

arXiv cs.RO / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

PokeVLAは、空間認識と高レベルの世界知識をより適切に取り込むことで、身体性を持つロボットのマニピュレーションを改善することを目的とした軽量な視覚言語行動（VLA）基盤モデルです。
手法は2段階の学習で構成され、まずコンパクトな視覚言語モデル（PokeVLM）を2.4M件のマルチモーダル学習データで事前学習し、その後マニピュレーションに関連する表現を行動空間へ整合させます。
PokeVLAは、マルチビューの目標志向セマンティクス学習、幾何アラインメント、そして新しい「アクション・エキスパート」モジュールを導入することで、行動選択の精度を高めます。
実験ではLIBERO-Plusベンチマークでの最先端性能と、実環境での有効性が報告されており、成功率と多様な擾乱に対する頑健性で比較ベースラインを上回ります。
再現性とコミュニティの進展を促すため、著者はコード、モデル重み、キュレーション済み事前学習データセットのスクリプトをオープンソース化する予定です。