TritonSigmoid:GPU向けの高速でパディング対応シグモイド注意カーネル【論文】

Reddit r/MachineLearning / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • GPU向けにTritonで実装された、高速かつパディング対応のシグモイド注意カーネル「TritonSigmoid」がオープンソースとして公開されました。
  • 単一細胞の基盤モデルを想定しており、各細胞が遺伝子トークンの系列として表されるため、可変長のパディングをネイティブに扱うことで無駄な計算を削減できます。
  • 実験では、H100上で最大515 TFLOPSを達成し、FlashAttention-2(361)やFlashSigmoid(440)を上回る性能が示されています。
  • モデリング品質も改善し、ソフトマックス注意より6つのデータセットで検証損失が低く、細胞タイプの分離も約25%向上すると報告されています。
  • さらに、ソフトマックスが発散するケースで安定して学習できる点も主張されており、arXiv論文(2604.27124)とGitHubリポジトリが公開されています。

私たちは、GPU向けの高速で、パディングを考慮したシグモイド注意(sigmoid attention)カーネルである TritonSigmoid をオープンソース化します。

これは、各セルが遺伝子の配列として表現されるシングルセル・ファウンデーションモデル向けに構築しました。単一の遺伝子は、複数の転写因子によって同時に制御され得ます。ソフトマックスはそれらに注意(attention)を競わせますが、シグモイドはモデルが多数の遺伝子(トークン)に同時に強く注意を向けられるようにします。セルは 200 から 16,000+ 個の遺伝子(トークン)を発現するため、このカーネルは可変長のパディングをネイティブに処理し、空の位置に対して計算を無駄にしません。

実験で分かったこと:
• ハードウェア:H100 で最大 515 TFLOPS(FlashAttention-2 は 361、FlashSigmoid は 440)
• 精度:6つの保持データセットにおいて、ソフトマックス注意よりも検証損失が低い
• 表現:細胞タイプの分離が 25% 改善
• 安定性:ソフトマックスが壊滅的に発散するのに対し、安定した学習

ぜひ議論やフィードバックをお寄せいただければ嬉しいです。

私たちの成果へのリンク:
論文:https://arxiv.org/abs/2604.27124
コード:https://github.com/MSDLLCpapers/triton-sigmoid

投稿者 /u/vjysd
[リンク] [コメント]