パラメータ効率はメモリ効率ではない:オンデバイスLLM適応のための微調整を再考する
arXiv cs.LG / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文は、パラメータ効率的微調整(PEFT、例:LoRAやIA3)がオンデバイスLLM適応におけるメモリ効率にそのまま結びつく、という広く浸透した前提に異議を唱えています。
- 学習可能パラメータを大幅に減らしても、PEFT手法は中間テンソルがシーケンス長に対して線形に増えるため、オンデバイスでメモリ不足(OOM)が起きうることを示します。
- 著者らはLARS(Low-memory Activation-Rank Subspace)を提案し、学習中に用いる活性化サブスペースを制約することで、メモリ使用量をシーケンス長から切り離します。
- 実験では、推論・理解・長文コンテキストの複数データセットにおいて、LoRAと比べて平均でGPUで33.54%、CPUで51.95%のメモリ削減を報告しつつ、精度とスループットは競争力を維持しています。
- Raspberry Piや一般的なCPUでも動作を示しており、リソース制約のあるエッジ機器上での高度なLLMパーソナライズを実現する現実的な道筋を示唆しています。



