ReFineVLA：教師ガイド付き微調整による推論を意識したマルチモーダル汎用ロボティクス方策

arXiv cs.RO / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

ReFineVLAは、視覚・言語・行動（VLA）ロボティクス方策を、入力から行動への写像だけでなく明示的な推論ステップも含むように微調整するマルチモーダル推論対応の枠組みを提案している。
その手法ではロボティクスのデータセットを、専門の教師モデルが生成した推論の根拠（合理）で拡張し、その推論を付与したデータで事前学習済みVLAを微調整することで、推論力を高めつつ汎化性能を維持する。
注意（attention）マップの可視化により、視覚観測・言語プロンプト・実行されるべき行動の対応関係（アラインメント）を検証している。
SimplerEnv上のシミュレーション環境で、WidowXとGoogle Robotの複数の長期的操作ベンチマークにおいて成功率で最先端の性能を達成し、いずれのベンチでも2番手手法を上回っている。
全体として、ReFineVLA学習モデルは視覚言語と行動領域の間でより高い一致を示し、多モーダル理解と汎化の改善につながることが示唆される。

Abstract

視覚-言語-行動（VLA）モデルは、言語による指示を用いてマルチモーダルな観測を所望のロボット行動へ翻訳する能力により、研究コミュニティから大きな注目を集めています。これらの進歩にもかかわらず、VLAはしばしば明示的な推論を見落とし、重要な論理ステップを省略したまま、機能的な入力-行動の対応関係を学習してしまいます。これは、複雑で長い時間的地平を要するマニピュレーション課題において特に顕著であり、解釈可能性および汎化の面で問題となります。本研究では、教師による理由付け（teacher-guided reasons）でVLAを微調整する、マルチモーダル推論を意識した枠組みReFineVLAを提案します。まず、専門の教師モデルが生成した推論の根拠（reasoning rationales）を用いてロボットデータセットを拡張し、VLAモデルが自身の行動について推論することを学べるように導きます。次に、ReFineVLAによって、推論が強化されたデータセットで事前学習済みVLAを微調整しつつ、基盤となる汎化能力を維持し、さらに推論能力を高めます。加えて、注意マップの可視化を行い、視覚観測、言語プロンプト、そして実行されるべき行動の間の整合性を分析します。これにより、モデルが関連する課題や行動に焦点を当てる能力を持っていることが示されます。この追加のステップを通じて、ReFineVLAで訓練されたモデルが、視覚-言語ドメインと行動ドメインの間で意味のある一致を示すことを明らかにし、マルチモーダル理解と汎化の向上を強調します。SimplerEnv上で、WidowXとGoogle Robotの両方の課題に対する一連のシミュレーション・マニピュレーション評価ベンチマークで検証した結果、ReFineVLAは最先端の性能を達成します。成功率において、WidowXベンチマークおよびGoogle Robotタスクの両方で、2番手の手法よりも高い値を示します。