大規模ビジョン言語モデルの構造的プルーニング：プルーニング動態、回復、データ効率に関する包括的研究

arXiv cs.CL / 2026/4/28

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

本研究は、既存の大規模ビジョン言語モデル（LVLM）を言語モデルのバックボーンに対する構造的プルーニングで圧縮し、その後に軽量なリカバリ学習を行う手法を検討している。
レイヤー方向（layerwise）と幅方向（widthwise）の2つの構造的プルーニングを比較し、計算資源や微調整データが限られる低リソース環境では幅方向プルーニングの方が性能をより良く維持しやすいことを示している。
リカバリ学習をデータが乏しい条件で評価し、元データの5%だけであっても有効な回復が可能であり、元性能の95%以上を維持できると報告している。
圧縮が小さい場合はマルチモーダル・プロジェクタのみの微調整で十分であり、教師あり微調整に隠れ状態蒸留を組み合わせると、さまざまなプルーニング段階で回復が最適になることを明らかにしている。
3B〜7Bパラメータの3つの代表的なLVLMファミリーで実験を行い、計算資源やデータが潤沢でない状況でもLVLMをエッジで圧縮・展開するための実践的知見を提供している。

AI Business

日経XTECH

Reddit r/artificial

Dev.to

Dev.to