分散（ディスアグリゲート）LLM推論に向けたメモリ処理パイプラインの理解と加速

arXiv cs.AI / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、分散（ディスアグリゲート）された長いコンテキストのLLM推論のための、統一的な4段階のメモリ処理パイプラインを提示する：メモリ準備（Prepare Memory）、関連度計算（Compute Relevancy）、検索（Retrieval）、推論への適用（Apply to Inference）。
プロファイリングにより、メモリ処理がLLM推論オーバーヘッドの約22%〜97%を占め得ることが示され、処理内容ごとに強い多様性（ヘテロジェネイティ）が観測される。
異種（ヘテロ）なシステムは、処理タイプをハードウェアに適合させることで、メモリ処理の加速に有効であると主張する。
著者らは、疎・不規則・メモリ律速のタスクをFPGAへオフロードし、計算負荷の高い処理はGPUに保持するGPU–FPGA方式を示す。
AMD MI210 GPUおよびAlveo U55C FPGAでの実験（ならびにNVIDIA A100でも同様の結果）により、複数のLLM最適化において、本システムはGPUベースライン比で推論が約1.04〜2.2倍高速、エネルギー消費が1.11〜4.7倍低減を達成する。

要旨: 現代の大規模言語モデル（LLM）は、複雑な推論を支えるために、スパース注意、検索拡張生成（RAG）、圧縮された文脈メモリなどの効率的な長文脈処理および生成メカニズムにますます依存しています。本研究では、これらの最適化を、4ステップのメモリ処理パイプラインとして統一できることを示します。すなわち、Prepare Memory（メモリ準備）、Compute Relevancy（関連度計算）、Retrieval（検索）、そしてApply to Inference（推論への適用）です。体系的なプロファイリングにより、LLM推論においてメモリ処理のオーバーヘッドが22%〜97%に及び、その計算特性に強い異質性（ヘテロジニアス性）があることを明らかにします。この洞察に動機づけられ、我々は、 extbf{異質（ヘテロジニアス）システム}がメモリ処理を加速するのに適しており、その結果としてエンドツーエンド推論も高速化できると主張します。GPU-FPGAシステム上でこのアプローチを実証します。具体的には、スパースで不規則かつメモリ制約のある演算をFPGAにオフロードする一方で、計算集約的な演算はGPU上に保持します。AMD MI210 GPUとAlveo U55C FPGAで評価したところ、我々のシステムはGPU基準に比べて $1.04\sim2.2\times$ 高速であり、さらに複数のLLM推論最適化にまたがって必要なエネルギーを $1.11\sim4.7\times$ 削減します（NVIDIA A100でも同様の結果が得られます）。これらの結果は、効率的なLLMメモリ処理に向けた実用的な方向性として異質（ヘテロジニアス）システムを位置づけ、将来の異質ハードウェア設計に示唆を与えるものです。