D-QRELO:量子化と残差低ランク近似による、大規模言語モデル向けの学習・データ不要デルタ圧縮

arXiv cs.LG / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、同一の大規模言語モデルに対して多数の教師あり微調整(SFT)モデルを配布することで生じるメモリ負担を、デルタ圧縮(事前学習済みLLM 1つと複数の圧縮デルタ重み)で削減することを目的としています。
  • 著者らは、大規模データで微調整されたモデルでは既存のデルタ圧縮手法が性能低下する理由を、大量のSFTデータ規模がデルタのパラメータ量・特異値・エントロピーを増大させ、圧縮誤差を悪化させるためだと指摘しています。
  • そこで提案されるDQRELOは、学習・データ不要で動作し、まずデルタの支配的な構造を捉えるために粗い1ビット量子化を行い、その後に補正付きの残差低ランク近似で細かな情報を再構成します。
  • dense型およびMoE(ミクスチャ・オブ・エキスパート)型を含む複数のLLMを対象に、ドメインを跨いだ実験により、DQRELOが厳しい条件下で既存手法より優れていることが示されます。
  • さらに、タスクの難しさ、モデルのアーキテクチャ、層の位置が圧縮における予測可能なパターンを生み、それが本番システムでの最適な圧縮戦略の指針になり得るという設計原則を大規模な実証分析に基づいて提示します。