要旨: 3Dシーン理解に関する最近の研究は、純粋に空間的な解析から機能的なシーン理解へと移行しつつあります。しかし、既存の手法の多くは、オブジェクト同士の機能的な関係を個別に扱うことが多く、人間が曖昧さを解消するために用いるシーン全体にわたる相互依存性を捉えられていません。私たちは、提示されたRGB-D画像から確率的なオープンボキャブラリの機能的3Dシーングラフを構築するための枠組みFunFactを提案します。FunFactはまず、オブジェクトおよび部品中心の3Dマップを構築し、基盤モデルを用いて意味論的にもっともらしい機能関係を提案します。これらの候補は、因子グラフの変数へと変換され、LLMに由来する常識的な事前分布と幾何学的な事前分布の両方によって制約されます。この定式化により、すべての機能エッジとその周辺分布(マージナル)に対する、共同の確率推論が可能となり、キャリブレーションされた信頼スコアが大幅に向上します。この設定をベンチマークするために、AI2-THORに基づく合成データセットFunThorを導入します。FunThorは、部品レベルの幾何学とルールベースの機能アノテーションに基づいています。SceneFun3D、FunGraph3D、およびFunThorでの実験により、FunFactはノードおよび関係の発見(recall)を改善し、曖昧な関係に対するキャリブレーション誤差を大幅に低減することが示されます。これは、機能的シーン理解における全体論的な確率モデリングの利点を強調しています。プロジェクトページは https://funfact-scenegraph.github.io/ をご覧ください。
FunFact: 因子グラフ推論による確率的な機能型(functional)3Dシーングラフの構築
arXiv cs.CV / 2026/4/7
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- FunFactは、位置(pose)が与えられたRGB-D画像から、確率的なオープン語彙の機能(functional)3Dシーングラフを構築するためのフレームワークを提案している。
- オブジェクト/パーツ中心の3Dマップを作成し、基盤モデルで機能関係候補を生成したうえで、それらを因子グラフの変数として扱い、シーン全体で同時推論する。
- 因子グラフにはLLM由来の常識的プライア(prior)と幾何学的プライアの両方で制約を与え、全エッジの確率と周辺分布(marginals)を統合的に推定することで、信頼度キャリブレーションを改善する。
- ベンチマークとして、AI2-THORを基に部品レベルの幾何とルールベースの機能注釈を持つ合成データセットFunThorを導入している。
- SceneFun3DやFunGraph3D、FunThorにおいて、曖昧な機能関係に対するキャリブレーション誤差を大きく減らしつつ、ノード/関係の発見リコールも向上する結果を報告している。
