Less Is More:クロスヘッド統一スパース注意で高速かつ正確な推論を実現

arXiv cs.CL / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、長いホライズンの生成中に精度を落とさずに推論モデルの効率を高めることを目的とした、トレーニング不要のスパース注意手法「LessIsMore」を提案している。
  • 推論におけるトークンの重要度はグローバルに安定しており、注意ヘッド間で多くが共有されるため、統一的なトークン選択により長い生成期間で起きる選択ミスの蓄積を防げると主張している。
  • LessIsMoreは、ヘッド間で統一したトークン選択と、安定したレシェンシー(直近性)の窓を用いて、最近の文脈を保持しつつ一貫したトークン集合をレイヤー間で再利用する。
  • 複数のモデルファミリーと困難な推論ベンチマークにおいて、より少ないトークンに注意しながら精度が同等以上になることを示している。
  • カーネルレベルの最適化により、最大1.6×のエンドツーエンド復号速度向上と最大1.72×のスパース注意計算の高速化を報告しており、実装コードも公開されている。

要旨: 大規模推論モデルは、推論時スケーリングによって強力な性能を達成できますが、短いプロンプトからの長いデコーディングが必要になるため、計算オーバーヘッドが大きくなります。疎な注意機構はレイテンシやメモリ使用量を削減できますが、既存手法では、長い生成ホライズンにわたって選択エラーが蓄積されることで推論精度が劣化したり、あるいは高コストな再学習が必要になったりすることが多くあります。我々は、長ホライズン推論のための学習不要(training-free)な疎な注意機構であるLessIsMoreを提案します。本研究の重要な洞察は、推論におけるトークン重要度はグローバルで安定しているという点です。すなわち、重要なトークンは注意ヘッド間で概ね共有されており、デコーディング手順を通じて安定しています。この構造に導かれて、LessIsMoreはヘッド間で統一されたトークン選択を強制しつつ、安定した近接(recency)のウィンドウによって直近の文脈を保持し、層をまたいで再利用可能な、グローバルに一貫したトークン集合を得ます。複数のモデルファミリーおよび困難な推論ベンチマークにおいて、LessIsMoreは、実際に注意するトークン数を大幅に減らしながら、精度を同等に保つか向上させます。カーネルレベルの最適化により、LessIsMoreはエンドツーエンドのデコーディング速度を最大1.6\times向上させ、疎な注意の計算を最大1.72\times高速化します。さらに、長い文脈長の結果からも、本アプローチの汎用性が示されます。コードは \\href{https://github.com/DerrickYLJ/LessIsMore}{https://github.com/DerrickYLJ/LessIsMore} で公開されています。