StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation
arXiv cs.RO / 4/14/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- StaMoは、軽量エンコーダと事前学習済みDiffusion Transformer(DiT)デコーダを用いて、2トークンから成る非常に圧縮された状態表現を教師なしで獲得する手法を提案する。
- この圧縮表現は既存のVLA(Visual-Language-Action)系モデルに容易に組み込め、LIBEROで14.3%の性能向上や実環境でのタスク成功率30%改善を含む効果が報告されている。
- 2トークン間の差分(潜在補間で得られる)が「潜在アクション」として自然に機能し、さらにロボットの実行アクションへ復号できることが示されている。
- 潜在アクションはポリシーのコトレーニングにも有効で、既存手法より10.4%上回り、解釈可能性も改善したとされる。
- StaMoは静止画像から状態表現をエンコードし、動画や複雑なアーキテクチャに依存しがちな既存アプローチに対し、実ロボデータ・シミュレーション・人の視点動画など多様なデータソースへスケールする。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles

Black Hat Asia
AI Business

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

Don't forget, there is more than forgetting: new metrics for Continual Learning
Dev.to

Microsoft MAI-Image-2-Efficient Review 2026: The AI Image Model Built for Production Scale
Dev.to
Bit of a strange question?
Reddit r/artificial