要旨: 画像言語モデル(VLM)は、統一されたTransformerアーキテクチャのもとで急速に発展してきた一方、その計算複雑性の高さゆえに、計算資源が限られたデバイスへの展開は依然として困難である。モデル圧縮のための手法としてプルーニングが有効な技術として現れているが、既存のアプローチは主に単一のモードに注目しており、パラメータまたはトークンのいずれか一方をプルーニングする形にとどまる。そのため、各モードに内在する冗長性を十分に探索しないままになり、プルーニング率が高い場合には大きな性能劣化につながる。上記の制約に対処するため、本研究では、VLM向けに設計した新しいフレームワークであるCollaborative Multi-Mode Pruning(CoMP)を提案する。これは、パラメータとトークンを共同でプルーニングすることで実現される。具体的には、まず、結合されたパラメータとトークンのあいだの相互干渉を調査するCollaborative Importance Metric(CIM)を設計する。CIMは、パラメータ重要度スコアの計算にトークンの異なる重要性を組み込みつつ、同時にプルーニングされたパラメータがトークン重要度スコアに与える影響を抑制する。さらに、全体のプルーニング処理を一連のプルーニング段階へと分解するMulti-Mode Pruning Strategy(MPS)を開発する。各段階において、異なるプルーニングモードのプルーニングコストに基づいて事前確率を見積もり、その上で最適なモードへ適応的に切り替える。加えて、MPSは履歴コストとランダム探索を組み込むことで、安定したプルーニング過程を実現し、局所最適を回避する。さまざまな画像言語タスクおよびモデルに対する大規模な実験により、本手法は最先端のアプローチと比較して、高いプルーニング率のもとでも性能を効果的に向上させることを示す。ソースコードは https://github.com/Wuzimeng/CoMP.git で公開されている。
視覚と言語のモデルに対する共同マルチモード枝刈り
arXiv cs.CV / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、単一の枝刈りモードを用いるのではなく、パラメータとトークンの両方を共同で枝刈りする Collaborative Multi-Mode Pruning(CoMP)を提案し、資源が限られたデバイス上で視覚言語モデルをより効果的に圧縮することを目的とする。
- パラメータとトークンの相互干渉をモデル化する Collaborative Importance Metric(CIM)を導入し、コンポーネントを取り除く際にトークンの重要度スコアを損なうことなく、パラメータ重要度の推定を改善することを狙う。
- 枝刈りを段階に分割し、推定される枝刈りコスト、過去のコスト履歴、ならびにランダムな探索を通じて枝刈りモード間を適応的に切り替える Multi-Mode Pruning Strategy(MPS)を開発し、不安定な挙動や局所最適への陥り込みを回避する。
- 複数の視覚言語タスクおよびモデルにわたる実験により、CoMPは最先端の単一モード手法と比較して、高い枝刈り率でもより強い性能を維持できることが示される。
- 著者らは、公開GitHubリポジトリを通じてCoMPのオープンソース実装を提供している。




