NeuronMLP:SVD圧縮とタイル化によるAWS Trainium上での効率的なLLM推論

arXiv cs.CL / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、SVD(特異値分解)圧縮と、AWS Trainium向けに最適化したタイル化を組み合わせることでLLM推論を高速化するNeuronMLPを提案しています。
  • カーネル融合や新しいキャッシュ戦略などのTrainium固有の手法により、データ移動コストを削減し、SRAM帯域をより有効に活用し、行列の転置に伴う高コスト処理を回避します。
  • 本手法は、Trainium上でのLLM推論における重要な計算カーネルであるMLP(多層パーセプトロン)層の高速化に焦点を当てています。
  • 9つのデータセットと6つの最新LLMでの評価では、NeuronMLPはAWSのNKIベースmatmulカーネルに対して、カーネルレベルで平均1.35×、圧縮率0.05の条件下でエンドツーエンドのLLM推論で平均1.21×の高速化を示しています。