RCP:大規模視覚言語モデルにおける分布シフトを緩和するための表現整合性プルーナー
arXiv cs.CV / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模視覚言語モデルにおける既存の視覚トークン・プルーニングに関する重要な問題として、トークンを不可逆に削除すると隠れ状態の分布がシフトし、その結果として大幅な精度低下が生じる点を指摘している。
- そこで提案されるのが RCP(Representation Consistency Pruner)であり、クロスアテンション・プルーナーを用いて、LLM層全体で一貫して視覚トークンを削減する累積的かつ単調なマスクを生成する。
- プルーニングによる情報損失を緩和するために、RCPは遅延リペア・アダプター(DRA)を追加し、プルーニングされたトークンの「本質(essence)」をキャッシュして、応答生成トークンにFiLMスタイルの変調を適用する。
- 学習では、修復ロスによって、プルーニング後の表現とフルトークンの教師との間で一次・二次の統計量を一致させる。一方、推論時は物理的なトークン破棄により効率的なまま維持される。
- LVLMベンチマークでの実験では、視覚トークン除去率を最大88.9%、FLOPs削減率を最大85.7%まで達成しつつ、平均精度低下はわずかであり、微調整を回避する先行のプルーニング手法を上回る。


