潜在構造と頑健性に対する因子ごとの補助ダイナミクス監督の評価:シミュレーションされた人型ロボット移動における検証
arXiv cs.RO / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Unitree G1 の人型ロボット移動をシミュレーションした環境において、PPO中に因子ごとの補助損失を用いて学習される、トランスフォーマー型の潜在ダイナミクスモデル DynaMITE を評価し、その監督付き潜在表現はデコード可能または機能的に分離可能な因子構造をもたらさないことを見出す。
- DynaMITE の分離度およびプロービング結果はいずれもほぼゼロ(例:probe R² ≈ 0、MIG/DCI/SAP もほぼゼロ)である一方、教師なしの LSTM の隠れ状態はより高い因子プロービング R²(最大 0.10)を達成する。
- 因子に基づくアブレーションでは、補助損失が in-distribution の報酬や厳しい out-of-distribution の報酬のいずれについても測定可能な改善を与えないことが示されるが、tanh ボトルネックは小さく一貫した改善をもたらす。
- 厳しい複合摂動下での頑健性は、ベースラインに比べて DynaMITE が改善するものの、本研究ではその要因を補助監督ではなくボトルネックによる表現の圧縮に帰している。
- Isaac Lab の人型ロボット移動タスク4つにわたって、LSTM が最良の名目報酬を達成し、著者らは、ボトルネック効果を超えて補助ダイナミクス監督が解釈可能性や意味のある頑健性をもたらす信頼できる経路ではないと結論づけている。
