VoxAfford：マルチスケール・ボクセルトークン融合によるオープン語彙3Dアフォーダンス検出

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、未知のアフォーダンス記述を用いてポイントクラウド上で相互作用領域を特定する「オープン語彙3Dアフォーダンス検出」に取り組む。
先行研究では、特殊な出力トークンを自己回帰的に生成することで意味は得られる一方、空間近傍関係を捉えにくく、3D位置推定の精度が弱くなると指摘している。
VoxAffordは、生成後の出力トークンに対し、事前学習済みの3D VQ-VAEエンコーダからマルチスケールの幾何特徴をクロスアテンションで注入し、学習されたゲーティングで注入の強さを制御することでこのボトルネックを回避する。
強化されたトークンは、意味に条件付けされたアテンションで空間対応のアフォーダンス・プロンプトに集約され、点ごとの特徴とともに伝播して最終マスクを生成する。
実験ではmIoUが約8%改善し、ロボット実機でも未知物体へのゼロショット転移が確認されるなど、最先端性能を報告している。

Abstract

オープンボキャブラリの3Dアフォーダンス検出では、未知のアフォーダンス記述が与えられた状況で、点群上の相互作用領域を局所化することが必要です。最近の手法では、多モーダルの大規模言語モデル（MLLM）を、セグメンテーションマスクに復号される特別な出力トークンで拡張しています。しかし、これらのトークンは自己回帰的生成によって作られるため、空間的な近傍関係ではなく逐次的な依存関係をモデル化しており、その結果、意味的には豊かである一方で、3D局所化に必要な空間情報は乏しい状態になります。私たちは、このボトルネックを回避するVoxel-enhanced Affordance detection（VoxAfford）を提案します。具体的には、生成後に、凍結済みの事前学習済み3D VQVAEエンコーダからのマルチスケール幾何学的特徴を出力トークンへ注入します。各出力トークンは、そのアフォーダンスの意味をクエリとして用い、対応するボクセルのスケールからクロスアテンションによって関連する幾何学パターンを取得し、注入の強さを制御する学習済みの適合性ゲートを介して特徴注入を行います。その後、強化されたトークンは、意味に条件付けされたアテンションによって空間を意識したアフォーダンス・プロンプトに集約され、点ごとの特徴とともに伝播されて最終的なマスクが生成されます。オープンボキャブラリのアフォーダンス検出タスクでの実験により、VoxAffordは約8%のmIoU向上を達成し、最先端の性能を実現することが示されました。また、実ロボットでの実験により、新規の対象物に対するゼロショット転移が確認されています。

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

Dev.to

2026年、AIが私たちのコードの書き方をどう変えるか：構文から戦略へのシフト

Dev.to

「CLAUDE.md」13のルールでAIに“モダンPHP”を書かせる（PHP5の復活じゃない）

Dev.to

MCPアノテーションはセキュリティ層ではなくUX層

Dev.to

OOMから262Kへ：8GB VRAMでローカルにQwen3-Coder 30Bを動かす

Dev.to

VoxAfford：マルチスケール・ボクセルトークン融合によるオープン語彙3Dアフォーダンス検出

要点

Abstract

関連記事

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

2026年、AIが私たちのコードの書き方をどう変えるか：構文から戦略へのシフト

「CLAUDE.md」13のルールでAIに“モダンPHP”を書かせる（PHP5の復活じゃない）

MCPアノテーションはセキュリティ層ではなくUX層

OOMから262Kへ：8GB VRAMでローカルにQwen3-Coder 30Bを動かす

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer