大規模ビジョン言語モデルの構造的プルーニング:プルーニング動態、回復、データ効率に関する包括的研究
arXiv cs.CL / 2026/4/28
📰 ニュースTools & Practical UsageModels & Research
要点
- 本研究は、既存の大規模ビジョン言語モデル(LVLM)を言語モデルのバックボーンに対する構造的プルーニングで圧縮し、その後に軽量なリカバリ学習を行う手法を検討している。
- レイヤー方向(layerwise)と幅方向(widthwise)の2つの構造的プルーニングを比較し、計算資源や微調整データが限られる低リソース環境では幅方向プルーニングの方が性能をより良く維持しやすいことを示している。
- リカバリ学習をデータが乏しい条件で評価し、元データの5%だけであっても有効な回復が可能であり、元性能の95%以上を維持できると報告している。
- 圧縮が小さい場合はマルチモーダル・プロジェクタのみの微調整で十分であり、教師あり微調整に隠れ状態蒸留を組み合わせると、さまざまなプルーニング段階で回復が最適になることを明らかにしている。
- 3B〜7Bパラメータの3つの代表的なLVLMファミリーで実験を行い、計算資源やデータが潤沢でない状況でもLVLMをエッジで圧縮・展開するための実践的知見を提供している。
