視覚言語モデルにおける圧縮を機構的に解釈する

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚言語モデルに対する一般的な圧縮手法(特にプルーニングと量子化)が、内部計算と安全性の挙動にどのように影響するかを調べる。
  • 因果回路分析と、クロスコーダーに基づく特徴の比較を用いて、著者らは、プルーニングは主に回路構造を保つ一方で内部の特徴を回転・減衰させることを見出す。これに対し量子化は回路をより広範に変化させるが、残存する特徴についてはより良く整合させる傾向がある。
  • 本研究では、複数の安全性カテゴリにわたって有害な入力と良性の反実仮想(カウンターファクト)を対応づけるベンチマークVLMSafe-420を導入し、より制御された評価を可能にする。
  • 結果は、プルーニングが真の拒否(refusal)挙動を大きく減少させ得ることを示しており、圧縮手法の選択が、実運用されるVLMの安全性に直接的な影響を及ぼすことを示唆している。
広告