固定サイズ線形アテンションによる補完を用いたTop-K検索:KVキャッシュ読み出し削減のためのバックボーンおよびKV形式を保持するアテンション
arXiv cs.LG / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 長いコンテキストのベンチマークに関する実験により、トークン当たりの読み出し予算を同等に揃えた条件下で、選択のみのTop-Kよりも改善が確認され、効果が最も大きいのはエントロピーの高いアテンションヘッドである。

