Affordance-R1:マルチモーダル大規模言語モデルにおける汎用的なアフォーダンス推論のための強化学習

arXiv cs.RO / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、ロボットの行動に関連する物体領域を予測するマルチモーダル強化学習ベースのアフォーダンス・グラウンディング手法「Affordance-R1」を提案する。
  • 既存モデルはChain-of-Thought(CoT)型の推論能力が不足しているため、領域外(OOD)での汎化や明示的な推論が制限されると指摘し、CoTガイド付きのGRPO(Group Relative Policy Optimization)で課題に取り組む。
  • 手法はformat・perception・cognitionの報酬から成る洗練されたアフォーダンス関数を用いて強化学習の最適化方向を制御し、明示的な推論データに依存せずに学習する。
  • アフォーダンス中心の学習データセット「ReasonAff」を構築し、ゼロショットの汎化性能、オープンワールドでの汎化、そしてテスト時に推論が“創発”する挙動を報告している。
  • 方法とデータセットのコードはGitHubで公開され、追試や発展が可能になる。

要旨: 所与性(affordance)グラウンディングは、ロボットが実行すべき行動に関連付けられた、物体の具体的な領域を予測することに焦点を当てます。これは、人とロボットのインタラクション、人と物体のインタラクション、身体性を伴う操作(embodied manipulation)、身体性を伴う知覚(embodied perception)の分野において重要な役割を果たします。既存のモデルは、多くの場合、Chain-of-Thought(CoT)による推論能力がないため、異なる物体間で共有される所与性(affordance)を無視しがちです。その結果、領域外(OOD)一般化や明示的な推論能力が制限されます。これらの課題に対処するため、我々は強化学習の枠組みにおいて、認知的なCoTによって導かれるGroup Relative Policy Optimization(GRPO)を統合した、初の統一的な所与性グラウンディングフレームワークであるAffordance-R1を提案します。具体的には、最適化の方向性を効果的に導くために、フォーマット、知覚、認知の報酬を含む洗練された所与性関数を設計しました。さらに、学習を支援するための高品質な所与性中心の推論データセットであるReasonAffを構築しました。GRPOによる強化学習のみで、明示的な推論データなしで訓練したAffordance-R1は、堅牢なゼロショット一般化を達成し、推論の自発的な(創発的な)テスト時推論能力を示します。大規模な実験により、我々のモデルが既存の確立された手法よりも優れていること、そしてオープンワールドでの一般化を示すことが確認されます。筆者らの知る限り、Affordance-R1は、所与性推論において、GRPOベースの強化学習と推論を統合した最初の手法です。我々の手法とデータセットのコードは https://github.com/hq-King/Affordance-R1 で公開されています。