MOONSHOT:視覚モデルおよび大規模言語モデルのための多目的プルーニングの枠組み

arXiv cs.LG / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、再学習なし(post-training one-shot)の重みプルーニングで、従来の単一目的(再構成損失や二次テイラー近似など)だけではアーキテクチャやスパース度によって最適性が一貫しない点を指摘している。
  • それを踏まえ、MOONSHOTは単一目的のプルーニング手法をラッパー化し、層ごとの再構成誤差と学習損失の二次テイラー近似を同時に最適化する多目的定式化を提案する。
  • 毂大規模(billion-parameter)でもスケールするために、意思決定のモデリングと逆ヘッセ行列を効率的に計算する手順を導入し、既存の高速 one-shot pruner の効率性を維持することを目標としている。
  • Llama-3.2 / Llama-2 ではC4 perplexityを最大32.6%(2:4スパース度)低減し、ゼロショット分類で最大+4.9点改善、さらにViT/ImageNet-1kで+5点超、ResNet-50で高スパース度(90%)でも+4点の改善を報告している。

Abstract

重みプルーニングは、大規模なニューラルネットワークを圧縮するための一般的な手法です。私たちは、学習の再調整(retraining)を行わずに、事前学習済みモデルを圧縮するという、難しいポストトレーニングのワンショット設定に焦点を当てます。既存のワンショットプルーニング手法は通常、層ごとの再構成損失や、学習損失の2階のテイラー近似といった単一の目的関数を最適化します。私たちは、これら2つの目的関数が単独では、アーキテクチャや疎度(sparsity)の水準をまたいで一貫して最も効果的であるとは限らないことを示します。この洞察に動機づけられ、MOONSHOTという汎用的で柔軟な枠組みを提案します。MOONSHOTは、任意の単一目的のプルーニング手法を、多目的の定式化へ拡張することで実現します。具体的には、層ごとの再構成誤差と、学習損失の2階のテイラー近似の両方を同時に最適化します。MOONSHOTは、既存のプルーニングアルゴリズムをラップする(wrapperとなる)形で動作します。これを、スケーラビリティを維持して10億パラメータ級のモデルに対応しながら実現するために、意思決定(modeling decisions)をモデル化し、効率的な逆ヘッセ行列(inverse Hessian)の計算手順を導入することで、最先端のワンショットプルーナの効率を保持します。Llama-3.2およびLlama-2モデルに対して最先端のプルーニング手法と組み合わせると、MOONSHOTは、2:4疎度においてC4のパープレキシティを最大32.6%低減し、さらに7つの分類ベンチマークにおけるゼロショットの平均精度を最大4.9ポイント向上させます。Vision Transformerでは、70%疎度でImageNet-1kに対する精度が5ポイント超向上し、ResNet-50では、90%疎度で4ポイントの改善が得られます。