NeuronMLP：SVD圧縮とタイル化によるAWS Trainium上での効率的なLLM推論

arXiv cs.CL / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、SVD（特異値分解）圧縮と、AWS Trainium向けに最適化したタイル化を組み合わせることでLLM推論を高速化するNeuronMLPを提案しています。
カーネル融合や新しいキャッシュ戦略などのTrainium固有の手法により、データ移動コストを削減し、SRAM帯域をより有効に活用し、行列の転置に伴う高コスト処理を回避します。
本手法は、Trainium上でのLLM推論における重要な計算カーネルであるMLP（多層パーセプトロン）層の高速化に焦点を当てています。
9つのデータセットと6つの最新LLMでの評価では、NeuronMLPはAWSのNKIベースmatmulカーネルに対して、カーネルレベルで平均1.35×、圧縮率0.05の条件下でエンドツーエンドのLLM推論で平均1.21×の高速化を示しています。