AI Navigate

ほとんどテキスト、スマートなビジュアル: 大規模ビジョン-言語モデルにおける非対称テキスト-ビジュアルプルーニング

arXiv cs.CL / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モダリティ固有の挙動を考慮するため視覚とテキストの重みをデカップリングして大規模ビジョン-言語モデルをプルーニングする方法を検討する。
  • テキスト経路はプルーニングに対してより敏感であり、テキストトークンで較正されるべきである。一方、視覚経路は高度に冗長であり、最大50%のスパース性を許容する。
  • ATV-Pruning を紹介する。これはすべてのテキストトークンと視覚トークンのサブセットから較正プールを構築し、層適応型の戦略を適用して重要な視覚トークンを選択する。
  • 標準的なマルチモーダルベンチマークに基づく広範な実験により、ATV-Pruning が最先端のプルーニング手法を上回ることを示している。

要約: ネットワークプルーニングは、軽量な大規模ビジョン-言語モデル(LVLMs)を実現するための有効な手法であり、重みと活性化の両方を重要度指標に主に組み込む。しかし、既存の取り組みは通常、異なるモダリティからの較正データを統一的に処理し、モダリティ固有の振る舞いを見落としている。これは重要な課題を提起する。テキストトークンとビジュアルトークンの異なる振る舞いを、LVLMの正確な剪定のためにどのように対応させるべきか。これを目的として、対応する重みをデカップリングすることにより、視覚トークンとテキストトークンの剪定操作に対する感度を系統的に調査し、次のことを明らかにした。 (i) テキスト経路はテキストトークンを用いて較正すべきであり、視覚経路より感度が高い。 (ii) 視覚経路には高い冗長性があり、50%のスパース性さえ許容される。これらの知見に動機づけられ、LVLMs向けの単純だが効果的な非対称テキスト-ビジュアル重み剪定法、 ATV-Pruning と名付けた手法を提案する。これは、テキスト経路と視覚経路の両方から有益なトークンを選択することにより、正確な重み剪定の重要度指標を確立します。具体的には、ATV-Pruning は二つの主要な革新を統合します。まず、すべてのテキストトークンと視覚トークンのサブセットを用いて、適応的に較正プールを構築します。次に、重要な視覚トークンを得るための層適応的選択戦略を考案します。最後に、標準的なマルチモーダルベンチマークでの広範な実験により、当社の ATV-Pruning が最先端手法より優れていることを検証します。