A3R：3Dガウス表現シーンにおける、2次元×3次元の証拠によるエージェント的アフォーダンス推論

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、3Dガウス表現シーンにおけるアフォーダンス推論の多くの失敗が、予測能力が弱いことだけに起因するのではなく、固定された観測下でタスクに関連する証拠が欠落していることにあると主張する。
アフォーダンス推論を、補完的な3D幾何学的証拠と2D意味的証拠を用いて反復的に曖昧さを低減する、逐次的な証拠獲得プロセスとして再定式化する。
提案するA3Rフレームワークは、MLLMベースの方策を用いて証拠獲得アクションを選択し、クロス次元（2D+3D）の証拠によってアフォーダンスの信念を更新する。
逐次方策を効果的に学習するため、著者らは証拠獲得の効率と推論精度の向上を目的としたGRPOベースの学習戦略を導入する。
シーンレベルのベンチマークに対する実験では、A3Rが静的なワンショット基準手法を上回り、複雑な3D環境におけるきめ細かなアフォーダンス推論に対するエージェント的な証拠収集の利点が示される。