SceneTeract：3Dシーンにおけるエージェント指向の機能的アフォーダンスとVLMのグラウンディング

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

SceneTeractは、高レベルのセマンティック推論と低レベルの幾何学的実行可能性チェックを組み合わせることで、3Dシーンが特定のエージェント主導の活動を支えるかどうかを検証する新しいフレームワークである。
このアプローチではタスクを原子的なアクション列に分解し、到達可能性、クリアランス、ナビゲーション可能性といった物理的アクセシビリティの制約を、明示的な幾何学的・物理シミュレーションを用いて各ステップごとに検証する。
実験により、多くの合成屋内環境では機能的失敗が頻繁に起き、基本的な相互作用でさえ妨げられることが示され、現行シーンの評価方法にギャップがあることが浮き彫りになる。
最先端のビジョン言語モデル（VLM）を評価した結果、強力なモデルであっても、3Dにおける意味的な確信と実際の物理的実行可能性との間に体系的な不一致があることが分かる。
著者らは、SceneTeractをVLMの事後学習（post-training）のための報酬エンジンとして用い、幾何学的制約を推論モデルへ蒸留し、検証スイートおよび関連データを公開している。