CREG：視覚と言語のモデルにおける空間推論の解釈のためのコンパス・リレーショナル証拠

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、CREG（Compass Relational Evidence Graph）という、学習不要の解釈可能性手法を提案する。多層のコントラスト付きGrad×Act帰属を、参照中心の極座標（コンパス・セクタ）座標系へと写像し、視覚言語モデルが推論した方向関係を特定する。
方向に関する説明の評価として、新しい3つの指標—Direction Alignment Error（DAE）、Edge Accuracy（EA）、Causal Occlusion Score（COS）—を導入し、方向の証拠が意図された幾何構造とどれだけ一致しているか、また因果的に忠実かどうかを測定する。
Qwen2-VL-7Bでの実験では、注意ロールアウトなどの標準的な帰属ベースラインに対して一貫した改善が確認される。具体的には、角度誤差が16.1°減少し、さらにCOCO-PairsでEAが+0.120向上する。
因果オクルージョンのテスト（540サンプル）では、COS値が≥ +0.42となり、方向に関する説明の忠実性を支持する。
Qwen2-VL-2Bでは結果が弱く、CREGの有効性は、より大きいモデル規模で明確になる、より構造化された空間表現に依存することが示唆される。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to