要旨: ロボティック・ビジョン-ランゲージ-アクション(VLA)モデルは、開かれた(オープンエンドな)操作に対して汎化性能が高い一方で、極端な低照度、モーションブラー、ブラッククリッピングといったセンシング段階での劣化に対して知覚が脆弱です。私たちは、従来のフレームベースの視覚が信頼できなくなる状況で、操作の頑健性を高めるイベント拡張VLAフレームワークであるE-VLAを提案します。E-VLAはイベントから画像を再構成するのではなく、イベントストリームに含まれる運動および構造の手がかりを直接活用することで、悪条件下でも意味論的な知覚と知覚-行動の整合性を保ちます。DAVIS346イベントカメラを用いたオープンソースの遠隔操作プラットフォームを構築し、さまざまなタスクと照明条件にわたって、実世界の同期RGB-イベント-アクションの操作データセットを収集しました。また、軽量で事前学習済みと互換なイベント統合戦略を提案し、安定したデプロイメントのためにイベントウィンドウイングと融合を研究します。実験の結果、パラメータ不要の単純な融合、すなわち蓄積したイベントマップをRGB画像に重ね合わせるだけでも、暗所やモーションブラーが多いシーンで頑健性が大幅に向上することが示されました。Pick-Placeでは、20 luxで成功率が画像のみの場合0%から、重ね合わせ融合で60%に、さらに私たちのイベントアダプタでは90%に増加します。深刻なモーションブラー(1000 ms露光)の場合、Pick-Placeは成功率が0%から20–25%へ、Sortingは5%から32.5%へ改善します。全体としてE-VLAは、イベント駆動型の知覚をVLAモデルに効果的に統合できることを体系的に示すものであり、従来のフレームベースのイメージングを超えた頑健な身体化知能への方向性を示しています。コードとデータセットは https://github.com/JJayzee/E-VLA で公開予定です。
E-VLA:暗所およびブレたシーン向けのイベント拡張ビジョン・言語・アクションモデル
arXiv cs.RO / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、フレームベースの知覚が破綻する極端な低照度およびモーションブラー条件下で、ロボットの把持操作の頑健性を向上させることを目的とした、イベント拡張ビジョン・言語・アクション(VLA)フレームワーク E-VLA を提案する。
- イベントカメラデータから画像を再構成する代わりに、E-VLA はイベントストリームから得られる運動/構造の手がかりを直接用いることで、センシング劣化下でも意味的知覚と知覚―行動の整合性を維持する。
- 著者らは DAVIS346 のイベントカメラを用いたオープンソースの遠隔操縦プラットフォームを構築し、複数のタスクおよび照明条件にわたる実世界の同期 RGB―イベント―アクションの操作データセットを収集する。
- 実験により、イベント統合による大きな効果が示される。具体的には、オーバーレイ融合が非常に低い照度(20 lux)での Pick-Place 成功率を改善し、さらにイベントアダプタは暗所および深刻なモーションブラーの両方でより高い頑健性を達成する。
- 本研究では、軽量で事前学習済みモデルと互換性のあるイベント統合手法も提案し、安定した実運用を目指したイベントのウィンドウ化/融合戦略を検討する。コードとデータセットは公開予定である。




