メモリ効率のためのTransformer学習・推論：テンソル折りたたみおよびシーケンス並列（TSP）

arXiv cs.CL / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、Tensor Parallelism（TP）とSequence Parallelism（SP）を同一のデバイス軸に畳み込むことで、各デバイスにおけるパラメータとアクティベーションのメモリ使用量を削減する手法「Tensor and Sequence Parallelism（TSP）」を提案しています。
通常はTPとSPで別々のメッシュ次元を割り当てますが、TSPでは各ランクに対して「重みの分割」と「トークン／シーケンスの分割」を同じ軸で割り当てることでメモリ効率を高めます。
著者らは2つの実行スケジュールを提示しており、注意（attention）ではシーケンス順のKey/Value交換、ゲート付きMLPでは重みシャードのリング循環とローカルでの部分出力の蓄積を用います。
TSPは単純な配置に比べて通信量が増える一方で、理論解析とベンチマークにより、メモリ制約の強い長文脈設定でTP・SP・TP+SPより有利になり得ることを示しています。
本研究はTSPを、密結合モデルやMixture-of-Experts（MoE）モデルに対して、パイプライン並列やエキスパート並列など既存の並列化手法と組み合わせられる「ハードウェアに配慮した並列軸」として位置づけています。

Reddit r/MachineLearning

Dev.to

Dev.to

Dev.to

Dev.to