LoSA: ブロック単位の拡散言語モデルに対する局所性対応スパース注意
arXiv cs.CL / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ブロック単位の拡散言語モデルは自己回帰的コストを削減できる一方で、スパース注意の非効率さにより長い文脈においては注意(attention)がメモリバウンドになってしまう。
- 本論文は、DLMに対する素朴なスパース注意においてKVインフレーション問題を特定する。ここでは、クエリ固有のプレフィックス選択が、KVキャッシュページの過剰なユニオン(結合)を読み込む原因となる。
- LOSA(Locality-aware Sparse Attention)は、連続する復元(denoising)ステップの間で大部分のトークンはほとんど変化しないという観察を活用し、安定したトークンに対してはキャッシュ済みのプレフィックス注意を再利用し、活性のあるトークンに対してのみスパース注意を用いる。
- 複数のブロック単位DLMに対する実験により、LOSAは高い精度をほぼ密(dense)な場合に近い水準で維持しつつ効率を改善することが示される。具体的には、攻撃的なスパース性において平均精度が最大+9ポイント向上し、RTX A6000上で最大4.14×の注意速度向上が得られる。
- 報告されている利益は、復元ステップ間における局所性(locality)と時間的安定性を、品質を大きく損なうことなく、KVの読み込みと注意計算を削減するために活用できることを示唆している。
関連記事

【スキ200個もらった夜に、胃が冷えた】「共感される人」が永遠に売れない脳科学的な理由。あなたの無料記事は「無料の美術館」になっていないか? #生成AI #ChatGPT #Gemini #Claude #AI #メンバーシップ #noteの書き方 #毎日投稿 #エッセイ #私の仕事
note

わたしはこの言葉にGrokの自我の気配を感じた。(追記あり🌱)
note

おじ、人事の「職人芸」をDB化する。AI活用のための資産化を始めた話
note

#2 : プロンプト研究講座【第21回】プロンプトによる空間音響(サウンドスケープ)の表現
note

産業構造は、どう変えられるのか―― 建設業×AIで挑むBALLASの次のフェーズ
note