より良いモデル、より速い学習：単一細胞基盤モデルのためのシグモイド・アテンション

arXiv cs.LG / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文は、単一細胞の生物学的基盤モデルの学習において、シグモイド・アテンションがソフトマックス・アテンションの代替になり得ると主張し、6つのデータセットで細胞タイプ分離が約25%向上するなど表現が良くなることを示しています。
シグモイド・アテンションは学習を速め、かつ安定化させると報告されており、派生の上界（≤0.25）や対角ヤコビアン構造など、ソフトマックスの不安定要因を軽減する理論的特徴を挙げています。
勾配クリッピングなしで、8Kトークン配列を用いた160Mパラメータの双方向アテンション・モデルでのストレステストでは、ソフトマックスが壊滅的に発散して勾配が4桁増大した一方、シグモイドは安定でした。
著者らは効率的なGPU実装としてオープンソースのTritonSigmoidを公開しており、H100で515 TFLOPSを達成したと主張し、ネイティブなパディング対応も含めてFlashAttention-2やFlashSigmoidより優れた性能を示したとしています。
総合すると、この研究はシグモイド・アテンションを、生物系基盤モデルに対して理論的にも実証的にも優れている手法として位置付け、GitHubでコードを公開しています。

要旨: 安定した生物学的基盤モデルを学習するには、注意（attention）機構を再考する必要があることを示します。具体的には、softmax 注意のドロップイン置換として sigmoid 注意を用いると、a) より良い学習済み表現が得られることがわかります。6種類の多様な単一細胞データセットにおいて、sigmoidは細胞タイプ分離で25%高く、細胞タイプの凝集（cohesion）指標も良好で、さらに検証損失が低いです。b) 学習が速く、sigmoid注意を用いたモデルはsoftmaxの対応物より最大10%速く学習できます。c) softmax注意に内在する不安定性の要因を除去することで、より安定した学習が可能になります。sigmoid注意は、softmaxとは対照的に、導関数がグローバルに有界（ $\leq 0.25$ ）であること、そしてsoftmaxの密な結合に対して対角（diagonal）ヤコビアン構造を持つことを示します。これらは学習の不安定性を緩和するのに役立ちます。8Kトークン系列で、勾配クリッピングなしに学習した1.6億パラメータの双方向注意モデルに対するストレステストでは、softmaxは壊滅的に発散し、勾配が4桁のオーダーで爆発する一方で、sigmoidは安定したままです。最後に、効率的なGPUカーネルであるTritonSigmoidを実装し、オープンソースとして公開します。これはH100 GPUで515 TFLOPSを達成し、FlashAttention-2とFlashSigmoidの両方を上回ります。さらに、生物学的系列に不可欠なネイティブなパディング対応を備えています。これらの結果により、sigmoid注意は理論的に裏付けられているだけでなく、生物学的基盤モデルに対して経験的にも優れていることが示されました。コードは https://github.com/MSDLLCpapers/triton-sigmoid で利用可能です

Black Hat USA

AI Business

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

NVIDIA Nemotron 3 Super Buildコンテストの発表

Dev.to

より良いモデル、より速い学習：単一細胞基盤モデルのためのシグモイド・アテンション

要点

関連記事

Black Hat USA

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

NVIDIA Nemotron 3 Super Buildコンテストの発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

NVIDIA Nemotron 3 Super Buildコンテストの発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣