CAGE-SGG:反実仮想的な能動グラフ証拠によるオープン語彙シーングラフ生成
arXiv cs.CV / 2026/4/27
📰 ニュースModels & Research
要点
- 本論文は、オープン語彙シーングラフ生成における重要な信頼性課題として、関係予測が視覚的根拠よりも言語の事前知識や物体の共起に左右されうる点を扱います。
- CAGE-SGGは、もっともらしい関係提案をそのまま採用せず、反実仮想に基づく関係検証で候補関係を「証拠で裏付ける」枠組みを提案します。
- 本手法では、視覚言語提案器でオープン語彙の関係候補を生成し、述語句を support/contact/containment/depth/motion/state などのソフトな証拠基盤に分解したうえで、関係条件付きの証拠エンコーダが述語に関連する手がかりを抽出します。
- 反実仮想検証器は、「必要な証拠」を取り除いたときに関係スコアが下がり、「無関係な摂動」下では安定するかを確認し、根拠の信頼性を高めます。
- 複数のSGGベンチマークで、リコール指標、未観測述語の汎化、反実仮想的な根拠品質のいずれでも一貫した改善が示され、「関係生成」より「関係検証」の方が信頼性と解釈可能性に優れると結論づけています。




