RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models
arXiv cs.AI / 3/24/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- RoboAlignは、MLLM(vision-language)からVLA(vision-language-action)へ“言語と低レベル行動のギャップ”を埋めることを目的にした学習フレームワークで、SFT後のRLベースのアラインメントで安定して性能向上を狙う手法を提案している。
- 具体的には、ゼロショットの自然言語推論でアクショントークンをサンプリングし、その推論を強化学習(RL)で洗練して行動精度を高める。
- 拡散ベースのアクションヘッドをMLLMバックボーンに追加してVLAを学習し、複数のロボティクスベンチマークで評価したところ、SFTのベースラインに対してLIBEROで17.5%、CALVINで18.9%、実環境で106.6%の改善が報告されている。
- さらに、RLによるアラインメントに必要なデータ量をSFT後に1%未満に抑えつつ改善を得られる点が強調されている。
Related Articles

Composer 2: What is new and Compares with Claude Opus 4.6 & GPT-5.4
Dev.to
How UCP Breaks Your E-Commerce Tracking Stack: A Platform-by-Platform Analysis
Dev.to
AI Text Analyzer vs Asking Friends: Which Gives Better Perspective?
Dev.to
[D] Cathie wood claims ai productivity wave is starting, data shows 43% of ceos save 8+ hours weekly
Reddit r/MachineLearning

Microsoft hires top AI researchers from Allen Institute for AI for Suleyman's Superintelligence team
THE DECODER