要旨: ロボットは人間のデモンストレーション中に見せられた新しい物体を迅速に識別して認識するにはどうすればよいでしょうか。既存のクローズドセット物体検出器は、物体が分布外にあるため、しばしばこれを失敗します。オープンセット検出器(例: VLMs)は時に成功しますが、新規の物体インスタンスを一意に認識するには、しばしば高価で煩雑な人間の介在を伴うプロンプトエンジニアリングが必要になることが多いです。本論文では、煩わしい言語説明と高価なプロンプトエンジニアリングの必要性を排除する自己教師ありシステムを提示します。それは、人間のデモンストレーション自体によって監督される自動的に作成されたデータセット上で、特注の物体検出器を訓練することによって実現します。我々のアプローチでは、「Show, Don't Tell」を採用し、デモンストレーション中に検出器に興味のある特定の物体を示すことで、複雑な言語説明を介して物体について検出器に伝えるのではなくします。言語を完全に回避することにより、このパラダイムは人間のタスクデモンストレーションで観察される関連物体に合わせた特注検出器を迅速に訓練できるようにします。我々は、現実世界のロボット上で自動データセット作成と新規物体検出の「Show, Don't Tell」パラダイムを展開する統合型オンロボットシステムを開発します。経験的な結果は、我々のパイプラインが、操作された物体の検出と認識において最先端の手法を大幅に上回り、ロボットのタスク完遂の向上につながることを示しています。
Show, Don't Tell: 人間の動画を観察して未知のオブジェクトを検出する
arXiv cs.CV / 2026/3/16
📰 ニュースTools & Practical UsageModels & Research
要点
- 本論文は『Show, Don't Tell』という自己教師付きアプローチを紹介します。これは言語説明に依存せず、ヒトのデモンストレーションから直接、特注のオブジェクト検出器を訓練するものです。
- デモンストレーションから自動的に訓練データセットを作成し、タスク中に見られた未知のオブジェクトのインスタンスを認識するロボット上の検出器を展開します。
- このアプローチは、オープンセット検出器が使用する高価な言語ベースのプロンプト設計を排除し、操作された物体を検出する最先端手法を上回ります。
- 著者らは、デモンストレーション中の未知のオブジェクトへの迅速な適応を可能にするため、このパラダイムを展開する統合された現実世界のロボットシステムを実装しています。