要旨: 視覚-言語-行動モデル(VLA)は、事前学習済みの視覚-言語モデルから継承した、汎用的インテリジェンス(すなわち広範なシーン理解と、言語条件付けによる汎化)によって、人のような汎用ロボット政策に向けて目覚ましい進歩を遂げてきました。しかしそれでも、運動の認識、記憶を意識した意思決定、身体的センシングといった、より広い機能能力を必要とする複雑な現実世界のタスクでは依然として困難があります。これに対処するために、我々は、異種のモダリティを、モダリティ固有のストリームとモダリティ間の共同自己注意によって統合するアーキテクチャであるマルチストリーム・アクショントランスフォーマー(MSAT)に基づく、器用なマニピュレーションのための汎用ロボット政策 RLDX-1 を導入します。RLDX-1 はさらに、このアーキテクチャをシステムレベルの設計上の選択と組み合わせます。これには、稀なマニピュレーション状況に対する学習データの合成、人のようなマニピュレーションに特化した学習手順、リアルタイムでのデプロイのための推論最適化などが含まれます。実証的評価を通じて、RLDX-1 が、シミュレーションのベンチマークと、一般的な汎用性を超えた幅広い機能能力を必要とする現実世界のタスクの両方において、近年の最先端VLA(例: \pi_{0.5} と GR00T N1.6)を一貫して上回ることを示します。具体的には、RLDX-1 は ALLEX ヒューマノイドタスクにおいて、成功率 86.8% を達成し、\pi_{0.5} と GR00T N1.6 は約 40% にとどまります。これは、RLDX-1 が、多様な機能的要求のもとで高 DoF のヒューマノイドロボットを制御できる能力を示しています。これらの結果により、RLDX-1 は、複雑で接触が多く、ダイナミックな現実世界での器用なマニピュレーションに対して、信頼性の高いVLAへ向けた有望な一歩として位置付けられます。
RLDX-1 技術レポート
arXiv cs.RO / 2026/5/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本記事は、既存のVision-Language-Action(VLA)モデルが複雑な実世界の課題で苦手とする領域を超えることを目的に、器用な操作(デクスタラス・マニピュレーション)向けの汎用ロボティクス・ポリシー「RLDX-1」を提案している。
- RLDX-1は、Multi-Stream Action Transformer(MSAT)を基盤としており、モダリティ別ストリームとクロスモーダルの共同自己注意により異種モダリティを統合する。
- さらに、希少な操作シナリオ向けの学習データ合成、ヒトのような操作に特化した学習手順、リアルタイム展開に向けた推論最適化といったシステムレベルの設計選択を組み合わせている。
- 実験では、RLDX-1がシミュレーションおよび実世界の両方で、最近の最先端VLA(π0.5やGR00T N1.6など)よりも一貫して高い性能を示したと報告している。
- ALLEXのヒューマノイド課題では、RLDX-1が成功率86.8%を達成し、π0.5とGR00T N1.6は約40%にとどまったとされており、高自由度ヒューマノイドを多様な要求下でより良く制御できることを示している。




