抽象: 事前学習済みの視覚言語モデル(VLM) は、多様な状況にわたって意味的・視覚的推論を行うことができます。これは、ロボット制御に対して価値ある常識的な事前知識を提供します。しかし、この知識をロボットの行動へ効果的に接地(グラウンディング)することは、いまだ開かれた課題です。従来の手法では、多くの場合、VLMが高レベルの指令を推論し、それを別個の低レベルポリシーが実行するという階層的アプローチが採用されがちです。たとえば、視覚言語アクションモデル(VLA)などです。VLMとVLAのインターフェースは通常、自然言語のタスク指示であり、これは根本的に、VLMの推論が低レベルの行動をどれだけ誘導できるかを制限してしまいます。そこで本研究では、Steerable Policies(操縦可能ポリシー)を提案します。Steerable Policiesは、サブタスク、動作、グラウンディングされたピクセル座標といった、さまざまな抽象度の豊富な合成コマンドで訓練されたVLAです。低レベルの制御可能性を高めることで、Steerable PoliciesはVLMにおける事前学習済みの知識を解き放ち、タスクの汎化性能を向上させることができます。本研究では、操縦可能ポリシーを、学習済みの高レベルの身体性推論器と、インコンテキスト学習によってコマンドの抽象度を推論するよう促された、市販の既製VLMの両方で制御することで、この利点を示します。広範な実世界の操作実験において、これら2つの新規手法は、従来の身体性推論VLAやVLMベースの階層的ベースラインを上回ります。特に、困難な汎化や長いホライゾンのタスクにおいても性能が優れています。
サイト: steerable-policies.github.io
身体化された推論と階層的制御のための操舵可能なビジョン・言語・アクション・ポリシー
arXiv cs.RO / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、事前学習済みの視覚言語モデル(VLM)の知識を実際のロボット行動へより適切に“根付かせる”(grounding)方法について扱っており、これは身体化ロボティクス制御における未解決の課題である。
- 複数の抽象度レベル(例:サブタスク、動作、ピクセルレベルでの根拠座標)にまたがる豊富な合成コマンドで訓練された、ビジョン・言語・アクションのポリシーである「操舵可能(Steerable)ポリシー」を提案し、低レベルの制御性を向上させることを目指す。
- この方法は、VLMによる推論を、従来の階層的な構成(VLMと低レベルポリシー間で自然言語インターフェースに依存する方式)よりも、ロボットの行動をより直接的に操舵(steer)できるようにすることを狙っている。
- 著者らは、高レベルのコマンド生成源として2つを検証する。すなわち、学習済みの身体化推論器と、インコンテキスト学習を用いた市販の(off-the-shelf)VLMである。これらを操舵可能ポリシーの駆動に用いる。
- 広範な実世界の操作実験における結果は、先行する身体化推論VLAや、VLMベースの階層的ベースラインに比べて、汎化性能と長い時間幅(long-horizon)での性能が改善されることを示している。




