要旨: Vision-Language-Action(VLA)モデルは、複雑なロボット操作のための推論メカニズムを徐々に取り入れてきました。しかし、既存の手法には重要な限界があります。すなわち、遅延や離散化の問題を抱える明示的な言語推論を用いるのか、より表現力の高い連続的な潜在推論を用いるのかにかかわらず、それらは主として静的な模倣学習に限定されており、適応性と汎化性が制限されます。オンライン強化学習(RL)は、試行錯誤による探索を可能にするためにVLAに導入されてきましたが、現在の手法はアクション空間そのものだけを従来のまま最適化し、根底にある物理的な推論プロセスを迂回しています。本論文では、
\textbf{LaST-R1} を提案します。これは、行動実行の前に物理ダイナミクス上で潜在Chain-of-Thought(CoT)推論を統合し、さらにそれに合わせたRLのポストトレーニング手法を組み込んだ統一的なVLAフレームワークです。具体的には、
\textbf{Latent-to-Action Policy Optimization(LAPO)} という新しいRLアルゴリズムを提案します。このアルゴリズムは、潜在推論プロセスと行動生成を同時に最適化します。推論と制御を橋渡しすることで、LAPOは物理世界モデリングの表現を向上させ、対話型の環境における頑健性を強化します。さらに、
\textbf{適応的な潜在CoTメカニズム} を導入し、環境の複雑さに応じて方策が推論ホライズンを動的に調整できるようにします。大規模な実験の結果、LaST-R1は、1-shotの教師ありウォームアップのみでLIBEROベンチマークにおいて平均成功率99.8
%というほぼ完璧な性能を達成し、従来の最先端手法に比べて収束速度と性能を大幅に向上させることが示されました。実環境での導入では、LAPOのポストトレーニングにより、単一アームおよびデュアルアームの両方を含む4つの複雑なタスクにおいて、初期のウォームアップ方策に比べ最大44
%の改善が得られます。最後に、LaST-R1は、シミュレーション環境から実環境までにわたって強い汎化性を示します。
LaST-R1:VLAモデルにおける適応的な物理潜在推論で行動を強化する
arXiv cs.RO / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文では、行動を実行する前に物理ダイナミクス上で潜在チェーン・オブ・ソート(CoT)推論を行うVision-Language-Action(VLA)フレームワーク「LaST-R1」を提案する。
- 既存のVLA手法は、遅延や離散化の影響を受けやすい明示的な言語推論に依存するか、連続的な潜在推論を用いても静的な模倣学習に制約されて適応・一般化が伸びにくい点が問題だと論じている。
- 著者らは、潜在推論と行動生成を同時に最適化する強化学習(RL)による事後学習手法「Latent-to-Action Policy Optimization(LAPO)」を提案し、推論と制御を結び付ける。
- LaST-R1には、環境の複雑さに応じて推論ホライズンを動的に調整する適応型の潜在CoTメカニズムも導入されている。
- 実験では、LIBEROベンチマークでワンショットの教師ありウォームアップのみで平均成功率99.8%近い結果が報告され、さらに実環境での展開を想定した複数の複雑タスク(シングルアーム/デュアルアーム)で初期ポリシーに対して最大44%の改善が示され、シミュレーションから実環境への汎化も強い。




