LaST-R1：VLAモデルにおける適応的な物理潜在推論で行動を強化する

arXiv cs.RO / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文では、行動を実行する前に物理ダイナミクス上で潜在チェーン・オブ・ソート（CoT）推論を行うVision-Language-Action（VLA）フレームワーク「LaST-R1」を提案する。
既存のVLA手法は、遅延や離散化の影響を受けやすい明示的な言語推論に依存するか、連続的な潜在推論を用いても静的な模倣学習に制約されて適応・一般化が伸びにくい点が問題だと論じている。
著者らは、潜在推論と行動生成を同時に最適化する強化学習（RL）による事後学習手法「Latent-to-Action Policy Optimization（LAPO）」を提案し、推論と制御を結び付ける。
LaST-R1には、環境の複雑さに応じて推論ホライズンを動的に調整する適応型の潜在CoTメカニズムも導入されている。
実験では、LIBEROベンチマークでワンショットの教師ありウォームアップのみで平均成功率99.8%近い結果が報告され、さらに実環境での展開を想定した複数の複雑タスク（シングルアーム／デュアルアーム）で初期ポリシーに対して最大44%の改善が示され、シミュレーションから実環境への汎化も強い。

要旨: Vision-Language-Action（VLA）モデルは、複雑なロボット操作のための推論メカニズムを徐々に取り入れてきました。しかし、既存の手法には重要な限界があります。すなわち、遅延や離散化の問題を抱える明示的な言語推論を用いるのか、より表現力の高い連続的な潜在推論を用いるのかにかかわらず、それらは主として静的な模倣学習に限定されており、適応性と汎化性が制限されます。オンライン強化学習（RL）は、試行錯誤による探索を可能にするためにVLAに導入されてきましたが、現在の手法はアクション空間そのものだけを従来のまま最適化し、根底にある物理的な推論プロセスを迂回しています。本論文では、
\textbf{LaST-R1} を提案します。これは、行動実行の前に物理ダイナミクス上で潜在Chain-of-Thought（CoT）推論を統合し、さらにそれに合わせたRLのポストトレーニング手法を組み込んだ統一的なVLAフレームワークです。具体的には、
\textbf{Latent-to-Action Policy Optimization（LAPO）} という新しいRLアルゴリズムを提案します。このアルゴリズムは、潜在推論プロセスと行動生成を同時に最適化します。推論と制御を橋渡しすることで、LAPOは物理世界モデリングの表現を向上させ、対話型の環境における頑健性を強化します。さらに、
\textbf{適応的な潜在CoTメカニズム} を導入し、環境の複雑さに応じて方策が推論ホライズンを動的に調整できるようにします。大規模な実験の結果、LaST-R1は、1-shotの教師ありウォームアップのみでLIBEROベンチマークにおいて平均成功率99.8
%というほぼ完璧な性能を達成し、従来の最先端手法に比べて収束速度と性能を大幅に向上させることが示されました。実環境での導入では、LAPOのポストトレーニングにより、単一アームおよびデュアルアームの両方を含む4つの複雑なタスクにおいて、初期のウォームアップ方策に比べ最大44
%の改善が得られます。最後に、LaST-R1は、シミュレーション環境から実環境までにわたって強い汎化性を示します。

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

FDAコンプライアンスを自動化する：専門食品メーカー向けのAI活用

Dev.to

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ITmedia AI+

LaST-R1：VLAモデルにおける適応的な物理潜在推論で行動を強化する

要点

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

FDAコンプライアンスを自動化する：専門食品メーカー向けのAI活用

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

FDAコンプライアンスを自動化する：専門食品メーカー向けのAI活用

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」 英政府機関が評価

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価