MOONSHOT:視覚モデルおよび大規模言語モデルのための多目的プルーニングの枠組み
arXiv cs.LG / 2026/4/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、再学習なし(post-training one-shot)の重みプルーニングで、従来の単一目的(再構成損失や二次テイラー近似など)だけではアーキテクチャやスパース度によって最適性が一貫しない点を指摘している。
- それを踏まえ、MOONSHOTは単一目的のプルーニング手法をラッパー化し、層ごとの再構成誤差と学習損失の二次テイラー近似を同時に最適化する多目的定式化を提案する。
- 毂大規模(billion-parameter)でもスケールするために、意思決定のモデリングと逆ヘッセ行列を効率的に計算する手順を導入し、既存の高速 one-shot pruner の効率性を維持することを目標としている。
- Llama-3.2 / Llama-2 ではC4 perplexityを最大32.6%(2:4スパース度)低減し、ゼロショット分類で最大+4.9点改善、さらにViT/ImageNet-1kで+5点超、ResNet-50で高スパース度(90%)でも+4点の改善を報告している。
