ReconVLA:不確実性に基づき失敗を考慮する視覚言語行動フレームワーク

arXiv cs.RO / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ReconVLAは、視覚言語行動(VLA)ロボット制御に対して、行動出力へ較正された不確実性を提供する信頼性の高いコンフォーマル予測ベースの枠組みを提案します。
  • 事前学習済みVLAポリシーのアクショントークン出力にコンフォーマル予測を直接適用することで、ReconVLAは実行品質やタスク成功と相関する不確実性シグナルを生成します。
  • ReconVLAはさらに、ロボット状態空間にもコンフォーマル予測を拡張し、失敗が起こる前に外れ値や危険な状態を検出できる予防的な失敗検知を可能にします。
  • シミュレーションと実機ロボット実験では、複数のマニピュレーション課題において、失敗予測の改善と壊滅的な誤りの低減が示されました。なお、基盤となるVLAの再学習や改変は不要です。

要旨: 視覚言語行動(VLA)モデルは、視覚観測と自然言語による指示を連続的な行動列へと写像することができる汎用のロボット制御器として登場してきた。しかし、VLAは行動予測に対する較正済みの信頼度の尺度を提供しないため、不確実性や失敗が起こり得ることを事前に考慮しなければならない現実環境での信頼性が制限される。この問題に対処するため、我々は信頼性の高い共形(conformal)モデルであるReconVLAを導入する。ReconVLAは、不確実性に導かれた、かつ失敗を意識した制御信号を生成する。具体的には、提学習済みVLAポリシーの行動トークン出力に対して直接、共形予測を適用し、実行品質およびタスク成功と相関する較正済みの不確実性推定値を得る。さらに、共形予測をロボット状態空間にも拡張し、失敗が起こる前に外れ値や危険な状態を検出する。これにより、行動レベルの不確実性を補完する、単純ながら効果的な失敗検出メカニズムを提供する。我々は、多様な操作タスクにおいてReconVLAをシミュレーションと実機ロボット実験の両方で評価する。結果として、共形化された行動予測は一貫して失敗の予兆検出を改善し、壊滅的な誤りを減らし、基盤となるVLAの再学習や改変なしで、較正済みの信頼度の尺度を提供することが示された。