私たちは、GPU向けの高速で、パディングを考慮したシグモイド注意(sigmoid attention)カーネルである TritonSigmoid をオープンソース化します。
これは、各セルが遺伝子の配列として表現されるシングルセル・ファウンデーションモデル向けに構築しました。単一の遺伝子は、複数の転写因子によって同時に制御され得ます。ソフトマックスはそれらに注意(attention)を競わせますが、シグモイドはモデルが多数の遺伝子(トークン)に同時に強く注意を向けられるようにします。セルは 200 から 16,000+ 個の遺伝子(トークン)を発現するため、このカーネルは可変長のパディングをネイティブに処理し、空の位置に対して計算を無駄にしません。
実験で分かったこと:
• ハードウェア:H100 で最大 515 TFLOPS(FlashAttention-2 は 361、FlashSigmoid は 440)
• 精度:6つの保持データセットにおいて、ソフトマックス注意よりも検証損失が低い
• 表現:細胞タイプの分離が 25% 改善
• 安定性:ソフトマックスが壊滅的に発散するのに対し、安定した学習
ぜひ議論やフィードバックをお寄せいただければ嬉しいです。
私たちの成果へのリンク:
論文:https://arxiv.org/abs/2604.27124
コード:https://github.com/MSDLLCpapers/triton-sigmoid
[リンク] [コメント]




