AFFORD2ACT:汎化可能で軽量なロボット操作のためのアフォーダンス誘導による自動キーポイント選択

arXiv cs.RO / 2026/4/17

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、アフォーダンスに導かれて操作に関連する最小限のセマンティックな2Dキーポイント集合を選択するロボット操作フレームワークAFFORD2ACTを提案している。
  • 密な画像やポイントクラウドを使わず、テキストプロンプトと1枚の画像からキーポイントを蒸留することで、計算負荷を下げ、無関係な背景特徴の影響を抑える狙いがある。
  • AFFORD2ACTは3段階パイプライン(アフォーダンスによるフィルタリング、カテゴリーごとのキーポイント構築、埋め込み型ゲーティング付きのトランスフォーマーによるポリシー学習)で、最も重要なキーポイントに推論を集中させる。
  • 得られるポリシーは軽量で、38次元の状態ポリシーで、プロプリオセプションや密表現に依存せず約15分で学習できるとされる。
  • 多様な実環境の操作タスクで、未見の物体・新しいカテゴリ・異なる背景・注意をそらす要素に対しても82%の成功率を報告し、データ効率が向上するとしている。

Abstract

視覚ベースのロボット学習はしばしば、密な画像入力またはポイントクラウド入力に依存しますが、これらは計算負荷が高く、無関係な背景特徴と絡み合ってしまいます。既存のキーポイント(要点)ベースの手法は、操作中心の特徴に焦点を当て、軽量にできる可能性がありますが、手作業のヒューリスティックに依存するか、あるいはタスクに結びついた選択に頼ってしまうため、スケーラビリティと意味理解が制限されます。これに対処するために、本論文ではAFFORD2ACTを提案します。これは、テキストプロンプトと単一の画像から最小限の意味的2Dキーポイント集合を蒸留する、アフォーダンス(可能な作用)誘導型のフレームワークです。AFFORD2ACTは、アフォーダンスのフィルタリング、カテゴリ(分類)レベルでのキーポイント構築、そして、最も関連性の高いキーポイントを推論するための埋め込み型ゲーティングを備えたトランスフォーマーに基づくポリシー学習、という3段階のパイプラインに従います。これにより、コンパクトな38次元の状態ポリシーが得られ、15分で学習可能であり、自己受容(プロプリオセプション)や密な表現を用いずにリアルタイムで高い性能を発揮します。多様な実世界の操作タスクにおいて、AFFORD2ACTは一貫してデータ効率を改善し、未知の対象物、新規カテゴリ、背景、そしてディストラクタ(注意をそらす要素)に対して82%の成功率を達成します。