クエリ駆動型シーングラフによる、解釈可能なゼロショット参照表現理解

arXiv cs.CV / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、タスク特化の学習データを用いずに自然言語クエリから画像内の対象物を特定する、解釈可能なゼロショット参照表現理解手法SGRECを提案する。
  • 多くのVLMベース手法が採用する特徴類似度のマッチングのみに依存するのではなく、SGRECはクエリに関連する空間関係、説明的キャプション、対象物同士の相互作用を符号化したクエリ駆動型のシーングラフを構築する。
  • その後、LLMを用いてシーングラフの構造化されたテキスト表現から対象物を推論し、判断の解釈可能性を高めるための詳細な説明を提示する。
  • 実験では、RefCOCOおよびRefCOCOgの複数のベンチマークにおいて強力なゼロショット性能が報告されており、RefCOCO val(66.78%)、RefCOCO+ testB(53.43%)、RefCOCOg val(73.28%)が含まれる。

要旨: ゼロショット指示表現理解(REC)は、タスク固有の学習データに依存せずに、自然言語のクエリに基づいて画像内の対象物を特定することを目的とする。そのためには、高度な視覚理解能力が要求される。既存のビジョン・言語モデル(VLM)であるCLIPのような手法では、テキストクエリと画像領域の特徴類似度を直接測定することで、一般にゼロショットRECに対応している。しかし、これらの方法は、細かな視覚的ディテールを捉えたり、複雑な対象物同士の関係を理解したりすることが難しい。一方で、大規模言語モデル(LLM)は高水準の意味推論に優れているが、視覚的特徴をテキストの意味論へ直接抽象化できないことが、RECタスクへの適用を制限している。これらの制約を克服するために、我々は、
extbf{SGREC}、解釈可能なゼロショットREC手法を提案する。これは、クエリ駆動のシーングラフを構造化された中間表現として用いることで実現する。具体的には、まずVLMを用いて、与えられたクエリに関連する空間関係、記述キャプション、対象物間の相互作用を明示的に符号化した、クエリ駆動のシーングラフを構築する。このシーングラフを活用することで、低レベルな画像領域と、LLMが必要とするより高次の意味理解との間のギャップを埋める。最後に、LLMはシーングラフによって提供される構造化されたテキスト表現から、対象物を推論し、その判断に対する詳細な説明を返すことで、推論過程における解釈可能性を担保する。大規模な実験の結果、SGRECは、RefCOCO val(66.78
%)、RefCOCO+ testB(53.43
%)、RefCOCOg val(73.28
%)を含む、ほとんどのゼロショットRECベンチマークにおいてトップ1精度を達成することが示された。これは、SGRECが強力な視覚シーン理解を実現できることを示している。