CAGE-SGG：反実仮想的な能動グラフ証拠によるオープン語彙シーングラフ生成

arXiv cs.CV / 2026/4/27

📰 ニュースModels & Research

共有:

要点

本論文は、オープン語彙シーングラフ生成における重要な信頼性課題として、関係予測が視覚的根拠よりも言語の事前知識や物体の共起に左右されうる点を扱います。
CAGE-SGGは、もっともらしい関係提案をそのまま採用せず、反実仮想に基づく関係検証で候補関係を「証拠で裏付ける」枠組みを提案します。
本手法では、視覚言語提案器でオープン語彙の関係候補を生成し、述語句を support/contact/containment/depth/motion/state などのソフトな証拠基盤に分解したうえで、関係条件付きの証拠エンコーダが述語に関連する手がかりを抽出します。
反実仮想検証器は、「必要な証拠」を取り除いたときに関係スコアが下がり、「無関係な摂動」下では安定するかを確認し、根拠の信頼性を高めます。
複数のSGGベンチマークで、リコール指標、未観測述語の汎化、反実仮想的な根拠品質のいずれでも一貫した改善が示され、「関係生成」より「関係検証」の方が信頼性と解釈可能性に優れると結論づけています。

Abstract

オープン・ボキャブラリーなシーン・グラフ生成（SGG）は、固定された述語ボキャブラリーを超えて、柔軟できめ細かな関係フレーズによって視覚シーンを記述することを目的としています。近年の視覚言語モデルはSGGのセマンティックなカバー範囲を大きく広げた一方で、重大な信頼性の問題も同時に導入しています。すなわち、予測される関係は、実際に根拠となる視覚的証拠ではなく、言語的な事前知識（priors）や物体の共起によって駆動される可能性があります。本論文では、反事実的な関係検証に基づく、証拠で整えられた（evidence-rounded）オープン・ボキャブラリーSGGフレームワークを提案します。もっともらしい関係提案をそのまま受け入れるのではなく、提案された各候補関係が、関係固有の視覚的・幾何学的・文脈的な証拠によって裏付けられているかを検証します。具体的には、まず視覚言語プロポーザーによってオープン・ボキャブラリーな関係候補を生成し、その後、述語フレーズを、支援（support）、接触（contact）、包含（containment）、深度（depth）、運動（motion）、状態（state）といったソフトな証拠基盤へと分解します。関係条件付きの証拠エンコーダは、述語に関連する手がかりを抽出し、反事実的検証器は、必要な証拠を取り除いたときに関係スコアが低下するかどうかを調べるとともに、不必要な摂動の下でスコアが安定しているかどうかを評価します。さらに、きめ細かな識別性とグラフ全体の整合性を高めるために、矛盾を意識した述語学習と、グラフレベルの嗜好（preference）最適化を導入します。従来型、オープン・ボキャブラリー、およびパンオプティックSGGのベンチマークに対する実験の結果、提案手法は、標準的な再現率ベースの指標、未見の述語に対する汎化、そして反事実的な根拠付けの品質において、一貫して改善を示します。これらの結果は、関係の生成から関係の検証へと移行することで、より信頼性が高く、解釈可能で、証拠に基づいたシーン・グラフが得られることを示しています。