ReLIC-SGG:オープンボキャブラリ場面グラフ生成のための関係ラティス補完

arXiv cs.CV / 2026/4/27

📰 ニュースModels & Research

要点

  • ReLIC-SGGは、オープンボキャブラリ場面グラフ生成において、注釈付きトリプレットは不完全になり得ること、未注釈の関係を確実な負例として扱うべきではないことに着目しています。
  • 類似・含意・矛盾をオープンボキャブラリ述語間で捉える意味関係ラティスを導入し、欠落した肯定的関係の推論精度を高めます。
  • 目視(画像)と言語の適合性、グラフ文脈、意味的一貫性を用いて、粒度の異なる表現(例:onとstanding/resting/supported by)にもまたがる関係の補完を行います。
  • 学習ではポジティブ・アンラベルド学習の目的を採用して偽の負例(false-negative)による監督を抑え、ラティスに導かれたデコードでよりコンパクトで意味的に一貫した場面グラフを生成します。
  • 従来型、オープンボキャブラリ、パノプティックの各ベンチマークで、希少・未見述語の認識改善と欠落関係の回復が示されています。

概要: オープン・ボキャブラリ・シーングラフ生成(SGG)は、固定された述語集合を超えた柔軟な関係フレーズによって視覚シーンを記述することを目的としています。既存手法は通常、注釈付きの三つ組を正例として扱い、注釈のない物体ペアの関係をすべて負例として扱います。しかし、シーングラフの注釈は本質的に不完全です。多くの有効な関係が欠落しており、同じ相互作用は異なる粒度で記述され得ます。例えば、\textit{on}、\textit{standing on}、\textit{resting on}、\textit{supported by} のようにです。この問題は、関係空間がはるかに大きいオープン・ボキャブラリSGGではさらに深刻になります。そこで本研究では、\textbf{ReLIC-SGG} を提案します。これは、関係の不完全性を意識した枠組みであり、注釈のない関係を確定的な負例ではなく潜在変数として扱います。ReLIC-SGG は、オープン・ボキャブラリ述語間の類似性・含意・矛盾をモデル化するためのセマンティック関係格子(リテラル)を構築し、それを用いて、視覚と言語の適合性、グラフの文脈、そしてセマンティックな整合性から欠落した正の関係を推論します。さらに、正例・未ラベル学習(positive-unlabeled)に基づく学習目的により、誤った負例の監督を低減し、格子に導かれたデコードによってコンパクトで意味的に整合したシーングラフを生成します。従来型、オープン・ボキャブラリ型、パンオプティック型のSGGベンチマークでの実験により、ReLIC-SGG が稀な述語や未見の述語の認識を改善し、欠落した関係をより適切に復元できることが示されます。