StableIDM：マニピュレータの切り詰めに対して逆ダイナミクスモデルを安定化するための時空間的リファインメント

arXiv cs.RO / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

StableIDMは、エンボディドAIにおける逆ダイナミクスモデル（IDM）の重要な弱点である「マニピュレータの切り詰め（truncation）」下での性能崩壊に対処し、状態推定の問題を解きにくくし制御を不安定にする状況を改善します。
本手法は、補助的なロボット中心マスキング、幾何学に基づくDirectional Feature Aggregation（DFA）、および運動の連続性に基づくTemporal Dynamics Refinement（TDR）を組み合わせることで、部分観測下での行動予測を安定化します。
AgiBotベンチマークでの評価では、極めて厳しい切り詰め条件において厳密なアクション精度が12.1%向上したことが示されています。
実機ロボットのリプレイや下流タスクでも、平均タスク成功率が9.7%向上し、動画から生成したプランを復号して把持する際のエンドツーエンド成功率が11.5%改善し、さらに自動アノテータとしてVLAに組み込んだ場合の実機成功率が17.6%向上します。

要旨: 逆ダイナミクスモデル（Inverse Dynamics Models: IDM）は、視覚観測を低レベルのアクション指令へ写像し、身体性のあるAIにおけるデータラベリングとポリシー実行の中核コンポーネントとして機能します。しかし、マニピュレータの切り詰め（truncation）のもとでは性能が深刻に劣化するという問題があり、これは一般的な失敗モードです。このため、状態推定が不適切（ill-posed）となり、不安定な制御につながります。本研究では、部分的な観測可能性のもとでアクション予測を安定化させるために、視覚入力からの特徴を洗練する時空間フレームワークであるStableIDMを提案します。StableIDMは、3つの補完的なコンポーネントを統合します：（1）背景の情報の錯綜を抑制するための、補助的なロボット中心のマスキング、（2）幾何学に配慮した空間推論のためのDirectional Feature Aggregation（DFA）。これは、見えているアームから推定される方向に沿って異方性の特徴を抽出し、（3）運動の連続性を通じて予測を平滑化し、補正するTemporal Dynamics Refinement（TDR）です。広範な評価により、提案手法の有効性を検証しました。StableIDMは、AgiBotベンチマークにおける厳しい切り詰め条件で、厳格なアクション精度を12.1%向上させます。また、実ロボットのリプレイにおいて平均タスク成功率を9.7%向上させます。さらに、動画から生成されたプランをデコードするときのエンドツーエンドの把持成功率を11.5%向上させ、さらに自動アノテータとして機能する場合には、下流のVLAの実ロボット成功を17.6%向上させます。これらの結果は、StableIDMが、身体性のある人工知能におけるポリシー実行とデータ生成の両方に対して、堅牢でスケーラブルなバックボーンを提供することを示しています。