概要: ロボットの透明性を実現することは、人とロボットの効果的な協働に向けた重要なステップです。透明であるためには、ロボットの自然言語によるコミュニケーションが、その行動と一貫している必要があり、さらにタスクと環境に明示的に根付いていなければなりません。既存の階層型ビジョン-言語-行動(VLA)モデルは、言語(例:chain-of-thoughtを通じて)や低レベルの行動を生成できます。しかし、現状の研究では、学習中にこれらのモダリティ間の明示的な整合を考慮していません。この重要な欠落を埋めるために、私たちは、階層的VLAのサブタスク記述を、視覚観測と行動空間に関して明示的に根付かせる新しいトレーニング枠組みを提案します。私たちの枠組みでは、生成された言語と対応する行動軌跡との整合を評価するためのコントラスト学習モデルを用います。このコントラスト学習モデルにより、整合性に基づいて異なる言語-軌跡の組を直接ランキングできるようになり、オフラインの選好学習を通じて、階層的VLAの根付けを洗練させることが可能になります。私たちは、この枠組みを、人間の言語アノテーション付き軌跡のベンチマークデータセットであるLanguageTableに適用し、多モーダルな根付け表現に関する重要な知見を提供するとともに、完全に教師ありの微調整と同等の性能を達成する強力なベースラインを確立し、高価なデータアノテーションの必要性を最小限に抑えます。
明示的な言語—アクション整合による階層型ビジョン—言語—アクション・モデルの基盤化
arXiv cs.RO / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ロボットの透明性を、ロボットの自然言語が視覚的観測およびその結果としての行動軌跡と明示的に一致していることを要件とすることで実現することを扱っている。
- 階層型ビジョン—言語—アクション(VLA)モデルに対して、新しい学習フレームワークを提案する。この枠組みは、言語生成(例:chain-of-thought)と行動を別々に扱うのではなく、学習中に明示的な言語—アクション整合を行う。
- 本手法は、言語—軌跡ペアを順位付けするコントラスト整合モデルを用い、さらに各階層サブタスクに対する基盤付け(grounding)を洗練させるためにオフラインの嗜好学習を適用する。
- 人手による言語注釈付き軌跡を用いたLanguageTableベンチマークでの実験により、本フレームワークが、完全に教師ありの微調整に匹敵する強力な性能を達成しつつ、高コストなデータ注釈への依存を削減できることが示される。
- 全体として、本研究はマルチモーダルな基盤付け表現に関する洞察を提供し、整合した透明なロボット行動のための実用的なベースラインを確立する。
