広告

VLAモデルは思っているより汎化性能が高い:物理および空間モデリングの再検討

arXiv cs.RO / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、VLAモデルが新しいカメラ視点や視覚的な擾乱に対して十分に頑健でない主因は、物理モデリングの不備というよりも、空間モデリングにおけるミスアライメント(位置・整合のずれ)であることが示される。
  • 1ショット適応の手法を導入し、軽量で学習可能な更新によって視覚表現を再調整することで、分布外の視点に対する性能を改善する。
  • Feature Token Modulation(FTM)は視覚トークンに対してグローバルなアフィン変換を適用し、4KパラメータのみでLiberoの視点精度を48.5%から87.1%へと向上させる。
  • Feature Linear Adaptation(FLA)はViTエンコーダに低ランク更新を用い、4.7Mパラメータで成功率90.8%を達成する。これはLoRA規模の微調整に匹敵する一方で、はるかに低コストである。
  • これらの結果は、事前学習済みのVLAモデルには大きな未活用の頑健性がある可能性を示し、最小限のターゲットを絞った視覚適応によって汎化を効果的に回復できることを示唆している。

広告
VLAモデルは思っているより汎化性能が高い:物理および空間モデリングの再検討 | AI Navigate