CLASP：マルチモーダル大規模言語モデル向けのクラス適応型レイヤ融合とデュアルステージ・プルーニング

arXiv cs.CV / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、冗長な視覚トークンに起因するマルチモーダルLLMの高い計算コストを削減するための、プラグアンドプレイ型のトークン削減フレームワークCLASPを提案する。
CLASPは、プロンプト／指示に応答して条件付けされたカテゴリ固有の表現を構築するために、クラス適応型のマルチレイヤー視覚特徴融合を行う。
トークン予算を、注意における重要度の高いピボットトークン（関連性）と、冗長性を考慮した補完トークン（カバレッジ）に分割することで、デュアルステージ・プルーニングを実施する。
複数のベンチマークにおける実験により、CLASPは、削減率および多様なMLLMアーキテクチャの条件の下で、既存のプルーニング手法よりも性能を向上させることが示される。
著者らは、提示されたGitHubリンク先でコードを公開する予定であると述べており、他者による導入と評価が可能になる。

要旨: マルチモーダル大規模言語モデル（MLLMs）は、視覚トークン列に高い冗長性があるために、大きな計算オーバーヘッドを被ります。既存の手法は通常、この問題を単一層のVision Transformer（ViT）の特徴を用い、静的なプルーニング戦略で対処します。しかしながら、このような固定構成は、さまざまな指示の下ではしばしば脆弱です。これらの制約を克服するために、本研究ではCLASPを提案します。CLASPは、クラス適応型レイヤ融合と二段階プルーニングに基づく、プラグアンドプレイのトークン削減フレームワークです。具体的には、CLASPはまず、多層の視覚特徴融合によってカテゴリ固有の視覚表現を構築します。その後、二段階のプルーニングを行い、トークン予算を、関連性と冗長性に対する重要度を踏まえた注目（attention-salient）ピボットトークン、およびカバレッジのための冗長性を考慮した補完（completion）トークンへと配分します。クラス適応型プルーニングにより、CLASPはプロンプトに条件付けされた特徴融合と予算配分を可能にし、強力かつ頑健な視覚トークン削減を実現します。大規模な実験により、CLASPは幅広いベンチマーク、プルーニング率、そしてMLLMアーキテクチャにわたって、既存手法を一貫して上回ることが示されています。コードは https://github.com/Yunkaidang/CLASP で公開予定です。