BOSCH:LLMにおける短いコンテキストの注意ヘッド選択のためのブラックボックス・バイナリ最適化
arXiv cs.CL / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- BOSCHは、KVキャッシュとレイテンシを削減するために、LLMの注意機構をスライディングウィンドウ注意(SWA)へ変換する際に注意ヘッドを選択するための、学習不要(training-free)のブラックボックス手法である。
- 本論文では、既存のハイブリダイゼーション(ハイブリッド化)アプローチが制限される理由として、層(layer)レベルの手法は層内のヘッドルーティングを無視してしまうこと、また静的なヘッド順位付けはハイブリッド化後に振る舞いが変化し得るため絡み合ってしまう点を挙げる。
- BOSCHは、ヘッド選択をラージ・ネイバーフッド探索(Large Neighborhood Search)として定式化し、3つのサブ問題により解く:少ない予算でのプローブによる層の重要度の検出、層ごとの適応的SWA比率の割り当て、比率バケット(グループ)内でのヘッド選択の最適化。
- 4つのLLM(1.7B〜30Bパラメータ)に対し、4つのSWA比率で実験を行った結果、BOSCHは層レベルのヒューリスティックと6つの強力な静的ヘッド選択ベースラインの両方を上回り、とりわけ高いSWA比率で優れていた。
- 連続事前学習(continual pretraining)において、BOSCHは元の長コンテキスト性能をより速く、より完全に回復し、選択されたヘッドがSWA比率ごとに意味のある形で変化することが示され、比率に特化したヘッド選択の必要性が強調される。




