MCAP:メモリ制約下でのLLM推論のためのデプロイ時レイヤープロファイリング
arXiv cs.LG / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、異種ハードウェア上でのLLMデプロイ時に「計算」よりも「メモリ」がボトルネックになる点に対処するため、レイヤーごとの重要度を推定するロード時推定器MCAP(Monte Carlo Activation Profiling)を提案しています。
- MCAPは、軽量なレイヤーごとの信号を用いて、数値精度(例:W4A8 vs. W4A16)とレイヤーの配置先(GPU、RAM、SSD)の両方を動的に決定します(重みの変更は不要です)。
- 実装はNVEというシステムとして示されており、同一の重みセットで異なるメモリ予算のもとでもモデルを動かせることを目指しています。
- 報告されている結果では、NVEはNVIDIA T4上でllama.cppのQ4_0に対してデコードスループットを1.5〜1.8倍向上させ、従来は重みの修正なしでは困難だったメモリ領域でも運用可能にするとしています。



