NeuronMLP:SVD圧縮とタイル化によるAWS Trainium上での効率的なLLM推論
arXiv cs.CL / 2026/4/27
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、SVD(特異値分解)圧縮と、AWS Trainium向けに最適化したタイル化を組み合わせることでLLM推論を高速化するNeuronMLPを提案しています。
- カーネル融合や新しいキャッシュ戦略などのTrainium固有の手法により、データ移動コストを削減し、SRAM帯域をより有効に活用し、行列の転置に伴う高コスト処理を回避します。
- 本手法は、Trainium上でのLLM推論における重要な計算カーネルであるMLP(多層パーセプトロン)層の高速化に焦点を当てています。
- 9つのデータセットと6つの最新LLMでの評価では、NeuronMLPはAWSのNKIベースmatmulカーネルに対して、カーネルレベルで平均1.35×、圧縮率0.05の条件下でエンドツーエンドのLLM推論で平均1.21×の高速化を示しています。




