メモリ効率のためのTransformer学習・推論:テンソル折りたたみおよびシーケンス並列(TSP)

arXiv cs.CL / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、Tensor Parallelism(TP)とSequence Parallelism(SP)を同一のデバイス軸に畳み込むことで、各デバイスにおけるパラメータとアクティベーションのメモリ使用量を削減する手法「Tensor and Sequence Parallelism(TSP)」を提案しています。
  • 通常はTPとSPで別々のメッシュ次元を割り当てますが、TSPでは各ランクに対して「重みの分割」と「トークン/シーケンスの分割」を同じ軸で割り当てることでメモリ効率を高めます。
  • 著者らは2つの実行スケジュールを提示しており、注意(attention)ではシーケンス順のKey/Value交換、ゲート付きMLPでは重みシャードのリング循環とローカルでの部分出力の蓄積を用います。
  • TSPは単純な配置に比べて通信量が増える一方で、理論解析とベンチマークにより、メモリ制約の強い長文脈設定でTP・SP・TP+SPより有利になり得ることを示しています。
  • 本研究はTSPを、密結合モデルやMixture-of-Experts(MoE)モデルに対して、パイプライン並列やエキスパート並列など既存の並列化手法と組み合わせられる「ハードウェアに配慮した並列軸」として位置づけています。