固定サイズ線形アテンションによる補完を用いたTop-K検索:KVキャッシュ読み出し削減のためのバックボーンおよびKV形式を保持するアテンション

arXiv cs.LG / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 長いコンテキストのベンチマークに関する実験により、トークン当たりの読み出し予算を同等に揃えた条件下で、選択のみのTop-Kよりも改善が確認され、効果が最も大きいのはエントロピーの高いアテンションヘッドである。