MCAP：メモリ制約下でのLLM推論のためのデプロイ時レイヤープロファイリング

arXiv cs.LG / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、異種ハードウェア上でのLLMデプロイ時に「計算」よりも「メモリ」がボトルネックになる点に対処するため、レイヤーごとの重要度を推定するロード時推定器MCAP（Monte Carlo Activation Profiling）を提案しています。
MCAPは、軽量なレイヤーごとの信号を用いて、数値精度（例：W4A8 vs. W4A16）とレイヤーの配置先（GPU、RAM、SSD）の両方を動的に決定します（重みの変更は不要です）。
実装はNVEというシステムとして示されており、同一の重みセットで異なるメモリ予算のもとでもモデルを動かせることを目指しています。
報告されている結果では、NVEはNVIDIA T4上でllama.cppのQ4_0に対してデコードスループットを1.5〜1.8倍向上させ、従来は重みの修正なしでは困難だったメモリ領域でも運用可能にするとしています。

Abstract

異種のハードウェアに大規模言語モデルを展開する場合、計算量ではなくメモリによって制約されることがよくあります。我々はMCAP（Monte Carlo Activation Profiling）を提案します。これは、ロード時に層ごとの重要度を推定する手法であり、対象デバイス上で動的な精度およびメモリ配置の判断を可能にします。MCAPは、精度ディスパッチ（W4A8 vs. W4A16）とレジデンシ階層（GPU、RAM、SSD）の両方を駆動する軽量な層ごとの信号を生成し、単一の重みセットを多様なメモリ予算にまたがって動作させることを可能にします。我々のシステムであるNVEは、NVIDIA T4上で llama.cpp のQ4_0よりも1.5〜1.8倍高いデコードスループットを達成し、重みを変更せずに、これまで不可能だったメモリ領域でモデルを動作させることを可能にします。