ビジョン・ランゲージ・アクションモデルのロバスト性:マルチモーダル学習とロボット操作

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、身体化されたタスクにおいて高い性能を示すにもかかわらず、Vision-Language-Action(VLA)モデルが、視覚の破損と言語ノイズが同時に生じる場合に脆くなり、有害な分布シフトを引き起こすことを示しています。
  • マルチモーダル擾乱のカリキュラムによりまずロバスト性を学習し、その後クリーンなタスクデータへ再整列して忠実度を回復する、デカップルしたファインチューニング手法であるSTRONG-VLAを提案します。
  • STRONG-VLAは、新しいマルチモーダル・ロバストネスのベンチマークで評価されます。このベンチマークは、現実的なセンサノイズ、遮蔽、指示の破損に結びついた28種類の擾乱タイプをカバーしています。
  • LIBEROおよびOpenVLAでの実験では一貫した改善が見られ、達成度の向上は(seenで)最大+12.60%、(unseenで)最大+7.77%と報告されています。また、OpenVLAの各種バリアントおよびpi0にわたる強力なクロスアーキテクチャ汎化も示されています。
  • AIRBOTプラットフォーム上での実ロボット実験により、提案手法がマルチモーダルな擾乱下での実運用の身体化制御を改善することが、さらに裏付けられます。

要旨: 身体化されたタスクにおいて強い性能を示すにもかかわらず、近年の視覚-言語-行動(VLA)モデルは、多モーダルな摂動下では依然として非常に脆弱です。そこでは、視覚の破損と言語的なノイズが共同で分布シフトを引き起こし、タスクレベルの実行を劣化させます。既存の堅牢性アプローチは通常、摂動データを用いた共同学習に依存し、堅牢性を静的な目的として扱います。その結果、堅牢性とタスクの忠実さの間で、最適化が相反してしまいます。本研究では、堅牢性の獲得とタスク整合的な洗練を明示的に分離する、デカップルされた微調整フレームワークSTRONG-VLAを提案します。第I段階では、難易度が増していく多モーダル摂動のカリキュラムにモデルを曝すことで、制御された分布シフトの下で段階的に堅牢性を学習できるようにします。第II段階では、クリーンなタスク分布にモデルを再整合させることで、堅牢性を維持しながら実行の忠実さを回復します。さらに、現実的なセンサノイズ、遮蔽、指示の破損といった要因に基づき、テキストと視覚の両モーダルにまたがる28種類の摂動タイプを含む包括的なベンチマークを確立します。LIBEROベンチマークでの大規模な実験により、STRONG-VLAが複数のVLAアーキテクチャにわたってタスク成功率を一貫して向上させることを示します。OpenVLAでは、本手法により、既知の摂動で最大12.60%、未見の摂動で7.77%の向上が得られます。特に、OpenVLA-OFT(+14.48% / +13.81%)やpi0(+16.49% / +5.58%)でも同等またはそれ以上の改善が観測され、強いアーキテクチャ間の汎化が示されます。AIRBOTロボットプラットフォーム上での実環境実験も、その実用上の有効性をさらに裏付けています。これらの結果は、多モーダルな堅牢性に対するデカップルされた最適化の重要性を強調し、STRONG-VLAを頑健な身体化制御のための、単純でありながら筋の通ったフレームワークとして位置づけます。