概要: Vision--Language--Action(VLA)ポリシーは、言語指示と視覚観測をロボットの行動へ対応付ける点で強い進展を示してきましたが、注意をそらす要素(ディストラクタ)を伴う雑然としたシーンでは信頼性が低下します。失敗事例を分析すると、多くの誤りは実行不可能な運動から生じるのではなく、インスタンス単位のグラウンディング失敗に起因していることが分かります。すなわち、ポリシーはしばしばもっともらしい把持軌道を生成しますが、それが目標からわずかに外れて着地したり、さらには誤った物体のインスタンスに着地したりします。この問題に対処するため、我々はTAG(Target-Agnostic Guidance)を提案します。TAGは、VLAポリシーにおけるディストラクタや外観(appearance)に誘発されるバイアスを推論時に明示的に低減する、シンプルな推論時ガイダンス機構です。分類器なしガイダンス(CFG)に着想を得て、TAGは元の観測と、物体が消去された観測(object-erased observation)下でのポリシー予測を対比させ、それらの差分を残差ステアリング信号として用います。これにより、意思決定プロセスにおける物体証拠の影響を強めます。TAGはポリシーのアーキテクチャを変更する必要がなく、最小限の学習および推論の変更で、既存のVLAポリシーに統合できます。TAGを標準的なマニピュレーションのベンチマーク、LIBERO、LIBERO-Plus、VLABenchにおいて評価したところ、雑然とした状況での頑健性が一貫して向上し、ニアミスや誤った物体インスタンスへの実行が減少することを確認しました。
タグ:視覚言語行動モデルにおける安定した対象中心推論のためのターゲット非依存ガイダンス
arXiv cs.RO / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語行動(VLA)ロボット方策における重要な信頼性課題を特定する。すなわち、雑多で込み入ったシーンでは、多くの失敗は本質的に不可能な運動に起因するのではなく、インスタンス(個体)レベルのグラウンディング誤りに由来する。
- その対策として、TAG(Target-Agnostic Guidance)を提案する。これは推論時のガイダンス手法であり、対象の情報を消去した観測(object-erased observations)を用いて、ディストラクタや外観に誘発されるバイアスに対抗する。
- その発想は、分類器なしガイダンス(CFG)に着想を得ている。TAGは、元の入力と対象情報を消去した入力に対する方策出力の差分から残差となる操舵(steering)信号を計算し、正しい対象の根拠に対する依存を強める。
- TAGは方策のアーキテクチャ変更を必要とせず、既存のVLAモデルに対して、追加の学習・推論の変更を最小限にして統合できる。
- LIBERO、LIBERO-Plus、VLABenchでの実験により、TAGが込み入った環境での頑健性を向上させ、ニアミスの把持や誤った対象の実行を減らすことが示されている。