FunFact: Building Probabilistic Functional 3D Scene Graphs via Factor-Graph Reasoning

arXiv cs.CV / 4/7/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • FunFactは、posed RGB-D画像から確率的なオープンボキャブラリの機能(functional)3Dシーングラフを構築するフレームワークを提案している。
  • オブジェクト/パーツ中心の3Dマップを作成し、基盤モデルで機能関係候補を生成したうえで、それらを因子グラフの変数として扱ってシーン全体で同時推論する。
  • 因子グラフにはLLM由来の常識的プライアと幾何学的プライアの両方で制約を与え、全エッジの確率と周辺分布(marginals)を統合的に推定することで信頼度キャリブレーションを改善する。
  • ベンチマークとして、AI2-THORを基に部品レベル幾何とルールベース機能注釈を持つ合成データセットFunThorを導入している。
  • SceneFun3DやFunGraph3D、FunThorで、曖昧な機能関係に対してキャリブレーション誤差を大きく減らしつつ、ノード/関係の発見リコールも向上する結果を報告している。

Abstract

Recent work in 3D scene understanding is moving beyond purely spatial analysis toward functional scene understanding. However, existing methods often consider functional relationships between object pairs in isolation, failing to capture the scene-wide interdependence that humans use to resolve ambiguity. We introduce FunFact, a framework for constructing probabilistic open-vocabulary functional 3D scene graphs from posed RGB-D images. FunFact first builds an object- and part-centric 3D map and uses foundation models to propose semantically plausible functional relations. These candidates are converted into factor graph variables and constrained by both LLM-derived common-sense priors and geometric priors. This formulation enables joint probabilistic inference over all functional edges and their marginals, yielding substantially better calibrated confidence scores. To benchmark this setting, we introduce FunThor, a synthetic dataset based on AI2-THOR with part-level geometry and rule-based functional annotations. Experiments on SceneFun3D, FunGraph3D, and FunThor show that FunFact improves node and relation discovery recall and significantly reduces calibration error for ambiguous relations, highlighting the benefits of holistic probabilistic modeling for functional scene understanding. See our project page at https://funfact-scenegraph.github.io/