AnySlot: ゼロショットのスロット単位配置のための、目標条件付き視覚言語行動ポリシー

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

AnySlotは、言語の対応付けからロボット制御までの間に明示的な空間ビジュアル目標を挿入することで、ゼロショットのスロット単位配置を改善する、目標条件付きの視覚言語行動フレームワークである。
本手法は、言語指示をシーン・マーカーの視覚目標へ変換し、その後、目標条件付きVLAポリシーを用いることで、より信頼性の高い意味的スロット選択と空間的ロバスト性を実現する。
本論文は、適切な評価データが存在しないことに対処するため、スロット単位配置に焦点を当てた構造化された空間推論を対象とする9つのタスクカテゴリからなるシミュレーションベンチマークSlotBenchを導入する。
実験では、AnySlotが、フラットなVLAベースラインや、従来のモジュール型対応付けアプローチを、サブセンチメートルの精度が要求される配置タスクにおいて上回ることが報告されている。
全体として、本研究は、高レベルのスロット選択と低レベルの実行を階層的に切り離すことで、ロボットの操作指示における構成（コンポジショナル）複雑性を低減することを提案している。

Abstract

Vision-Language-Action（VLA）ポリシーは、汎用ロボットマニピュレーションのための多用途なパラダイムとして登場してきました。しかし、合成的な言語指示のもとで物体を正確に配置することは、現代のモノリシックVLAポリシーにとって依然として大きな課題です。スロットレベルのタスクでは、信頼できるスロットのグラウンディングと、サブセンチメートル級の実行精度の両方が必要になります。そこで本研究では、AnySlotというフレームワークを提案します。これは、言語のグラウンディングと制御の間に、明示的な空間ビジュアルゴールを中間表現として導入することで、合成の複雑さを低減します。AnySlotは、シーンマーカーを生成することで言語を明示的な視覚ゴールへと変換し、その後、ゴール条件付きのVLAポリシーでこのゴールを実行します。この階層的設計により、高レベルのスロット選択から低レベルの実行を効果的に切り離し、意味的な正確さと空間的な頑健性の両方を保証します。さらに、こうした精度を要求するタスクに対する既存ベンチマークが欠けていることを踏まえ、本研究では、スロットレベル配置における構造化された空間推論を評価するために調整された9つのタスクカテゴリを備えた包括的なシミュレーションベンチマークであるSlotBenchを導入します。大規模な実験の結果、AnySlotは、フラットなVLAベースラインおよび従来のモジュール型グラウンディング手法に比べて、ゼロショットのスロットレベル配置において大幅に優れた性能を示します。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/14Dailyインサイトを見る →

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

AnySlot: ゼロショットのスロット単位配置のための、目標条件付き視覚言語行動ポリシー

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵