Vision-Languageモデルにおける単一物体からの文脈推論

arXiv cs.CV / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マスクした背景により細かな場面カテゴリと、粗い屋内対屋外といった文脈を課すことで、単一の物体からシーン文脈をどのように推論するかを、視覚言語モデルを用いて検討する。
実験の結果、両レベルにおいてチャンスレベルを上回る文脈推論が観測され、その性能は、人間によるシーン分類と同様に、物体の性質の影響を受けることが示される。
モデルの物体同一性、シーン、上位（superordinate）文脈の予測は部分的に切り離し可能であり、あるレベルでの高い正確さが他のレベルの正確さを必ずしも意味しない。さらに、その結びつきの度合いはモデルによって異なる。
機構的解析から、背景を取り除いた後も安定して保たれる物体表現が、成功した文脈推論の予測に最も有効であることが示される。
さらに、シーンと上位スキーマでは内部的な位置づけ（grounding）が異なることが分かる。すなわち、シーン同一性はネットワーク全体の画像トークンに広く符号化されているのに対し、上位情報は終盤にのみ現れるか、あるいは確実ではない。これは、最終的な精度だけでは捉えられない複雑な組織化が存在することを示唆している。

要旨: 単一の対象が持つシーン文脈がどれほどかという問いは、人間のシーン知覚において十分に研究されているものの、視覚言語モデル（VLM）においてこの能力がどのように組織化されているかは、これまで十分に解明されていません。これは、これらのモデルの頑健性に対して直接的な含意を持ちます。本研究では、単一の対象からの文脈推論に関して、体系的な行動学的および機構的（メカニズム）解析を通じてこの問いを検討します。マスクされた背景上でVLMに単一の対象を提示し、微細なシーンカテゴリと粗い上位概念文脈（屋内か屋外か）の両方を推論できるかを調べます。その結果、単一の対象は両レベルにおいて偶然よりも高い推論を支えることが分かりました。また、その性能は、人間のシーン分類を予測するのと同じ対象の性質によって調整されることが示されました。対象の同一性、シーン、および上位概念の予測は部分的に切り離し可能です。すなわち、一方のレベルでの正確な推論は、他方のレベルでの正確な推論を必要とせず、また保証もしません。さらに、モデル間で結合の度合いが大きく異なります。機構的には、背景文脈が取り除かれても安定して残る対象表現ほど、成功した文脈推論をよりよく予測します。シーンと上位概念のスキーマは、本質的に異なる方法で基盤づけられています。シーン同一性はネットワーク全体の画像トークンに符号化されているのに対し、上位概念の情報は後半になって初めて、あるいはまったく現れません。これらの結果は、VLMにおける文脈推論の組織化が、正確さだけでは示唆されないほどより複雑であることを明らかにします。行動学的および機構的な特徴（シグネチャ）