クエリ駆動型シーングラフによる、解釈可能なゼロショット参照表現理解

arXiv cs.CV / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、タスク特化の学習データを用いずに自然言語クエリから画像内の対象物を特定する、解釈可能なゼロショット参照表現理解手法SGRECを提案する。
多くのVLMベース手法が採用する特徴類似度のマッチングのみに依存するのではなく、SGRECはクエリに関連する空間関係、説明的キャプション、対象物同士の相互作用を符号化したクエリ駆動型のシーングラフを構築する。
その後、LLMを用いてシーングラフの構造化されたテキスト表現から対象物を推論し、判断の解釈可能性を高めるための詳細な説明を提示する。
実験では、RefCOCOおよびRefCOCOgの複数のベンチマークにおいて強力なゼロショット性能が報告されており、RefCOCO val（66.78%）、RefCOCO+ testB（53.43%）、RefCOCOg val（73.28%）が含まれる。

要旨: ゼロショット指示表現理解（REC）は、タスク固有の学習データに依存せずに、自然言語のクエリに基づいて画像内の対象物を特定することを目的とする。そのためには、高度な視覚理解能力が要求される。既存のビジョン・言語モデル（VLM）であるCLIPのような手法では、テキストクエリと画像領域の特徴類似度を直接測定することで、一般にゼロショットRECに対応している。しかし、これらの方法は、細かな視覚的ディテールを捉えたり、複雑な対象物同士の関係を理解したりすることが難しい。一方で、大規模言語モデル（LLM）は高水準の意味推論に優れているが、視覚的特徴をテキストの意味論へ直接抽象化できないことが、RECタスクへの適用を制限している。これらの制約を克服するために、我々は、
extbf{SGREC}、解釈可能なゼロショットREC手法を提案する。これは、クエリ駆動のシーングラフを構造化された中間表現として用いることで実現する。具体的には、まずVLMを用いて、与えられたクエリに関連する空間関係、記述キャプション、対象物間の相互作用を明示的に符号化した、クエリ駆動のシーングラフを構築する。このシーングラフを活用することで、低レベルな画像領域と、LLMが必要とするより高次の意味理解との間のギャップを埋める。最後に、LLMはシーングラフによって提供される構造化されたテキスト表現から、対象物を推論し、その判断に対する詳細な説明を返すことで、推論過程における解釈可能性を担保する。大規模な実験の結果、SGRECは、RefCOCO val（66.78
%）、RefCOCO+ testB（53.43
%）、RefCOCOg val（73.28
%）を含む、ほとんどのゼロショットRECベンチマークにおいてトップ1精度を達成することが示された。これは、SGRECが強力な視覚シーン理解を実現できることを示している。

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

note

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

note

ベテランほど、AIを使った方がよい理由

note

「やらなきゃ」を「やりたい！」に変えたら、1日の景色が全く違って見えた話【大人の時間を整える、AI生活デザイン術】

note

死者をAIで「再現」できる時代に、私たちは何を守るべきか

note

クエリ駆動型シーングラフによる、解釈可能なゼロショット参照表現理解

要点

関連記事

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

ベテランほど、AIを使った方がよい理由

「やらなきゃ」を「やりたい！」に変えたら、1日の景色が全く違って見えた話【大人の時間を整える、AI生活デザイン術】

死者をAIで「再現」できる時代に、私たちは何を守るべきか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する​

ベテランほど、AIを使った方がよい理由

「やらなきゃ」を「やりたい！」に変えたら、1日の景色が全く違って見えた話【大人の時間を整える、AI生活デザイン術】

死者をAIで「再現」できる時代に、私たちは何を守るべきか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する