ReFineVLA:教師ガイド付き微調整による推論を意識したマルチモーダル汎用ロボティクス方策
arXiv cs.RO / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ReFineVLAは、視覚・言語・行動(VLA)ロボティクス方策を、入力から行動への写像だけでなく明示的な推論ステップも含むように微調整するマルチモーダル推論対応の枠組みを提案している。
- その手法ではロボティクスのデータセットを、専門の教師モデルが生成した推論の根拠(合理)で拡張し、その推論を付与したデータで事前学習済みVLAを微調整することで、推論力を高めつつ汎化性能を維持する。
- 注意(attention)マップの可視化により、視覚観測・言語プロンプト・実行されるべき行動の対応関係(アラインメント)を検証している。
- SimplerEnv上のシミュレーション環境で、WidowXとGoogle Robotの複数の長期的操作ベンチマークにおいて成功率で最先端の性能を達成し、いずれのベンチでも2番手手法を上回っている。
- 全体として、ReFineVLA学習モデルは視覚言語と行動領域の間でより高い一致を示し、多モーダル理解と汎化の改善につながることが示唆される。




