実現可能な行動近傍の事前知識による視覚・言語・行動の微調整の強化

arXiv cs.RO / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現実世界のロボット操作では、複数の行動が実質的に同等の進展をもたらしうる「実現可能な行動近傍（FAN）」が自然に成立し、単一の正解行動ではないと主張する。
視覚・言語・行動（VLA）の微調整に対して、FANに導かれた正則化項を導入し、ガウス事前分布によってモデルの出力分布を再形成することで、望ましい方向と大きさの近傍における局所的に滑らかで単峰的な予測を促す。
実験の結果、この手法は強化微調整（RFT）と教師あり微調整（SFT）の両方で、サンプル効率と成功率を向上させることが示される。
報告される結果は、分布内だけでなく分布外（OOD）でも強力であり、VLA適応におけるより良い汎化が示唆される。
本アプローチは、ロボティクスに内在する物理的な操作の許容度に合わせてモデルの振る舞いを整合させる、原理に基づいた方法として提示されており、実用性と学習効率の両方を改善する。