Nグラムの先へ：効率的な埋め込みパラメータ拡張のためのデータ認識型X-GRAM抽出

arXiv cs.CL / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文では、メモリ拡張型のスケーリングで用いられる大規模なトークン参照ルックアップテーブルのパラメータ効率を高めるための、周波数認識型の動的トークン注入手法X-GRAMを提案する。
先行研究の限界は、Zipf分布におけるロングテールのアンダートレーニング、層ごとに異なる需要の不均一性、そして「スロットの崩壊」による冗長な埋め込みの発生に起因すると述べている。
X-GRAMは、ハイブリッド・ハッシングとエイリアス・ミキシングによりロングテールを圧縮しつつヘッドの容量を維持し、その後は正規化済みSwiGLU＋ShortConvで取得ベクトルを洗練して、多様なローカルn-gram特徴を抽出する。
抽出した信号は、深さに応じたゲーティングを通じてアテンションのValueストリームと層間の残差に統合され、静的メモリと動的コンテキストの整合を高める。
0.73Bおよび1.15Bスケールでの評価では、バニラ基盤に対して最大+4.4、強力なリトリーバル基準に対して+3.2の平均精度改善が報告され、さらに50%設定ではテーブルを大幅に小さくしつつ同等の効果を達成し、コードもGitHubで公開されている。

要旨: 大規模なトークンインデックス付きルックアップテーブルは、計算と疎結合にしたスケーリングの道筋を提供しますが、実際の効果はしばしばパラメータ効率の低さと急速なメモリ増大によって制限されます。これらの制約は、ロングテールのZipf分布におけるアンダートレーニング、層間における需要の不均一性、そして「スロット崩壊」によって冗長な埋め込みが生成されることに起因すると考えます。これに対処するため、周波数を意識した動的トークン注入フレームワークであるX-GRAMを提案します。X-GRAMは、ハイブリッドハッシングとエイリアス・ミキシングを用いてテールを圧縮しつつヘッドの容量を保持し、さらに取得したベクトルを、正規化されたSwiGLU ShortConvによって洗練して、多様なローカルn-gram特徴を抽出します。これらの信号は、深度に応じたゲーティングを用いて、注意（attention）の値ストリームと層間の残差に統合され、静的メモリを動的コンテキストに効果的に整合させます。この設計は、モデルの容量とFLOPsを疎結合にするメモリ中心のスケーリング軸を導入します。0.73Bおよび1.15Bの規模での大規模評価により、X-GRAMはバニラなバックボーンに対して最大4.4ポイント、強力なリトリーバル基準に対して最大3.2ポイント平均精度を改善し、さらに50%構成では実質的に小さなテーブルを使用します。全体として、効率的なメモリ管理によって容量と計算を切り離すことで、X-GRAMは将来のメモリ拡張アーキテクチャに向けた、スケーラブルで実用的なパラダイムを提供します。コードは https://github.com/Longyichen/X-gram で利用可能です。