要旨: 大規模言語モデルは強力な生成性能を発揮する一方で、巨大なパラメータ数、メモリ使用量、デコード遅延という代償を伴う。先行研究では、剪定や構造化スパース性が、相当な圧縮の下でも精度を維持し得ることが示されている。また、プロンプト圧縮手法は冗長な入力トークンを除去することで遅延を低減する。しかし、これら2つの方向性は依然として大きく別物のままである。ほとんどのモデル圧縮手法は静的であり、オフラインで最適化されていて、異なるプロンプトやデコード手順が異なる潜在的な計算経路を活性化するという事実を活用していない。プロンプト圧縮手法はシーケンス長を削減するが、実行されるモデルのサブネットワークを適応的に変更しない。
本研究では、動的LLM実行のための、圧縮センシングに導かれた統一的フレームワークを提案する。ランダムな測定演算子が潜在モデルの利用状況を調べ、スパース復元によりタスク条件付きかつトークンに適応したサポート集合を推定し、回復されたサポートは、ブロック、注意ヘッド、チャネル、フィードフォワードのサブ構造にまたがる、ハードウェア効率の高いスパース実行経路へとコンパイルされる。提案フレームワークは5つの主要な貢献を導入する。すなわち、タスク条件付き測定により、異なるプロンプトが異なるスパースサポートを生み出すこと、トークン適応型復元により、デコード中に活性なサブ構造が再推定されること、制限付きアイソメトリーまたは相互非干渉性の仮定の下での形式的なサンプル複雑性の境界、回復をGPU効率の高い構造に制限するコンパイル時のハードウェア制約、そしてプロンプト圧縮とモデル削減を統一する共同目的関数、である。これらの要素により、LLM推論は、明示的な近似保証とデプロイ指向の速度向上制約を伴う、測定と復元の問題として再定式化される。
圧縮センシングに導かれ、推論を意識した大規模言語モデルの構造化リダクション
arXiv cs.CL / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、大規模言語モデルの推論を「動的」に行うために、プロンプト圧縮とモデルの剪定・構造化スパース性を統合した統一フレームワークを提案する。
- ランダムな計測オペレータを用いた圧縮センシングで、デコード中にどの潜在サブ構造(サポート)を実行すべきかを、タスク条件およびトークンに応じて推定する(静的に事前最適化しない)。
- 推定されたサポートは、ブロック、注意ヘッド、チャネル、フィードフォワード構造などにまたがる、ハードウェア効率の高いスパース実行パスへコンパイルされる。
- 本研究は、restricted isometry(制限付き等長)または mutual incoherence(相互非干渉)の仮定の下で、サンプル複雑度に関する形式的な保証を含む。
- さらに、GPU効率の良い構造に回復を制約することで、近似保証とデプロイ指向の高速化を両立することを目指している。
