バジェット付きLoRA：蒸留を「構造化された計算資源配分」として捉え、効率的推論を実現

arXiv cs.AI / 2026/5/7

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルを対象に、固定された計算予算の下で効率的な推論を目標とする蒸留手法「Budgeted LoRA」を提案する。
従来のパラメータ効率的蒸留（例：LoRA）のように密なバックボーンをほぼ維持するのではなく、Budgeted LoRAは推論コストを下げるために密成分と低ランク成分の間で能力を再配分する。
モジュール単位の密保持係数、適応的な低ランク割り当て、事後学習での選択的な密圧縮を組み合わせ、密計算を保持する最終割合を決める「単一のグローバル予算スライダー」を導入する。
実験では、適度な予算で標準LoRAのパープレキシティに一致しつつ圧縮モジュールで1.74×の高速化を達成し、さらに攻めた予算では4.05×の高速化と「中程度」のパープレキシティ低下を両立する。
関数スタイルのインコンテキスト学習プローブでも精度をより保持でき、性能はパラメータ数やパープレキシティよりも「密計算を低ランク経路へどう移すか」に強く依存することを示唆している。

概要: 本研究では、明示的な計算（コンピュート）制約のもとで大規模言語モデルの蒸留を扱い、学習コストが安いだけでなく、推論時に構造的に効率のよい生徒モデルを作ることを目標とします。LoRAのようなパラメータ効率の高い蒸留手法は、適応コストを削減しますが、密なバックボーン自体は変更されないため、有意な推論上の省計算をもたらせません。そこで本研究では、モデル圧縮を構造化された計算配分問題として扱う蒸留フレームワークであるBudgeted LoRAを提案します。固定された生徒モデルのアーキテクチャを用いる代わりに、最終的に保持する密な計算の目標割合を決めるグローバルな計算予算を導入します。この制約のもとで、モデルは(i) モジュールレベルの密保持係数、(ii) 適応的な低ランク配分、(iii) 学習後圧縮による密成分の選択的な削除・近似・保持、の3点を通じて、密経路と低ランク経路間で能力（キャパシティ）を再配分します。この定式化により、単一の予算ダイヤルで制御される一群の生徒モデルが得られます。実験的に、Budgeted LoRAは中程度の予算で標準LoRAと同等のパープレキシティを達成し、圧縮モジュールの速度向上は1.74倍です。攻めた予算では、パープレキシティの中程度の低下を伴いながら4.05倍の速度向上を実現し、関数スタイルのインコンテキスト学習プローブにおいてより高い精度を保持します。これらの結果は、計算制約下の蒸留において、挙動保持はパープレキシティを合わせることや、より多くのパラメータを削除すること以上に、「密な計算が低ランク経路へどのように転送されるか」を制御することにかかっていることを示唆しています。