CREG:視覚と言語のモデルにおける空間推論の解釈のためのコンパス・リレーショナル証拠
arXiv cs.CV / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、CREG(Compass Relational Evidence Graph)という、学習不要の解釈可能性手法を提案する。多層のコントラスト付きGrad×Act帰属を、参照中心の極座標(コンパス・セクタ)座標系へと写像し、視覚言語モデルが推論した方向関係を特定する。
- 方向に関する説明の評価として、新しい3つの指標—Direction Alignment Error(DAE)、Edge Accuracy(EA)、Causal Occlusion Score(COS)—を導入し、方向の証拠が意図された幾何構造とどれだけ一致しているか、また因果的に忠実かどうかを測定する。
- Qwen2-VL-7Bでの実験では、注意ロールアウトなどの標準的な帰属ベースラインに対して一貫した改善が確認される。具体的には、角度誤差が16.1°減少し、さらにCOCO-PairsでEAが+0.120向上する。
- 因果オクルージョンのテスト(540サンプル)では、COS値が≥ +0.42となり、方向に関する説明の忠実性を支持する。
- Qwen2-VL-2Bでは結果が弱く、CREGの有効性は、より大きいモデル規模で明確になる、より構造化された空間表現に依存することが示唆される。
