視覚言語行動モデル向けの安定した言語ガイダンス

arXiv cs.RO / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 視覚言語行動(VLA)ロボットモデルは、言語のわずかな変化に対して脆くなる傾向があり、「モダリティ・コラプス」により強い視覚の事前情報が疎な言語信号を圧倒してしまう。
  • 本論文では、Residual Semantic Steering(RSS)を提案し、行動側の物理的アフォーダンスと意味的実行を確率的に分離することで、意図に沿う行動を実現しようとする。
  • RSSには2つの要素があり、LLM駆動の分布拡張で意味の事後分布を近似するMonte Carlo Syntactic Integrationと、デコード時に視覚アフォーダンスの影響を差し引いて言語の因果的寄与を明示的に分離するResidual Affordance Steeringが含まれる。
  • 理論解析ではRSSが、行動と意図の相互情報量を高めつつ視覚的な気晴らしを抑制するとされ、複数の操作ベンチマークで、敵対的な言語摂動下でも性能を維持するなど高い頑健性が実証されている。
  • 著者らはRSSのコードをGitHubで公開しており、再現や追加検証が容易になっている。