視覚言語モデルにおける圧縮を機構的に解釈する

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデルに対する一般的な圧縮手法（特にプルーニングと量子化）が、内部計算と安全性の挙動にどのように影響するかを調べる。
因果回路分析と、クロスコーダーに基づく特徴の比較を用いて、著者らは、プルーニングは主に回路構造を保つ一方で内部の特徴を回転・減衰させることを見出す。これに対し量子化は回路をより広範に変化させるが、残存する特徴についてはより良く整合させる傾向がある。
本研究では、複数の安全性カテゴリにわたって有害な入力と良性の反実仮想（カウンターファクト）を対応づけるベンチマークVLMSafe-420を導入し、より制御された評価を可能にする。
結果は、プルーニングが真の拒否（refusal）挙動を大きく減少させ得ることを示しており、圧縮手法の選択が、実運用されるVLMの安全性に直接的な影響を及ぼすことを示唆している。