位置埋め込みの自然な基底としての乗法格子
Knack 2026 | Draft v6.0
要旨
RoPE型の相対位置不変性とALiBi型の長文脈安定性の間に見かけ上のトレードオフがあるのは、位置を数直線上の距離として符号化していることのアーティファクトであることを示します。代わりに、位置を整数の乗法格子における点として符号化すると、妥協なしに両方の性質が同時に現れます。SpectralRoPEALiBiは、完全に収束した20,000ステップの実験(300Mパラメータ、WikiText-103、4Kコンテキスト)でALiBiの108.7に対して106.6 PPLを達成し、512〜8,192トークンのあらゆるコンテキスト長でALiBiを上回ります。
重要な洞察は、素数そのものが正しい周波数であるということではなく、整数の乗法構造が位置埋め込みのための自然なスペクトル基底だという点です。反証実験によりこれを示します。素数ティアの周波数(129.2 PPL)と合成数ティアの周波数(129.4 PPL)は同一の性能を示します——合成数は素数の代替ではなく、同じ格子におけるより高次の座標だからです。さらに、ランダム周波数(+5.0 PPL)、ティア割り当てのスクランブル(+6.3 PPL)、純粋なALiBi(+7.3 PPL)に対して、どちらも大幅に優れます。活性要素は、素数性そのものではなく、学習可能なスケールを伴う格子を意識したティア付き周波数選択です。
また、ZetaZeroPredictor実験でこれをさらに検証します。リーマンゼータ零点ギャップを予測するために、同一のトランスフォーマを10,000エポック学習させた3つのモデルを用意しました。幾何学的RoPEは発散しました(最終r=0.57)。一方、SpectralALiBiはエポック112で安定したアトラクタにロックしました(r=0.81)。独立な2回目の実行では、この差は-80.7%のMSE改善にまで広がり(r=0.86)、さらに大きくなりました。ゼータ零点が存在する数学的空間を跨ぐ周波数基底は、格子に整合しています。幾何学的な周波数基底ではそれができません。
さらに、第5.5節の構造予測の経験的裏付けも報告します。VHT2によるKVキャッシュのバンディング量子化により、(RoPEの位置埋め込みを担う)Kベクトルはウォルシュ・ハダマール空間において強いスペクトル集中を示します——最初の4つのエネルギーバンドが支配的な構造を捉えます。一方で、(コンテンツを担う)Vベクトルはエネルギーが一様に分布します。この構造的非対称は、格子理論により直接予測されます。RoPEは乗法的な算術関係を角速度として符号化し、WHTはその構造を張るVilenkin-Hartley基底のZ/2Z射影です。その結果、<1.25%のパープレキシティ増加コストで、Kは3.2×圧縮、Vは4.7×圧縮が可能です。これはDolphin 1B(head_dim=64)およびQwen3-8B(head_dim=128)の両方で検証されています。
導入
位置埋め込みは、トランスフォーマモデルにトークン順序の情報を与えます。支配的なアプローチは2つあります。RoPEは周波数に基づく回転によって位置を符号化し、相対位置不変性を保ちます。一方、ALiBiは周波数を線形距離ペナルティに置き換えることで長文脈安定性を提供します。研究コミュニティでは、これらの性質は本質的に相反するものとして扱われてきました。
私たちは、この緊張関係が誤りであることを示します。共有され、検討されていない前提——位置を数直線上の場所であるとみなし、有意な関係が距離であるとすること——から生じています。私たちはこれを、数学的に根拠のある別案に置き換えます。すなわち、位置は整数の乗法格子における点であり、位置間の有意な関係はその算術構造——共有因子、GCD、調和共鳴——です。
1.1 格子仮説
整数の乗法のもとでは、それぞれの数がその素因数分解によって一意に定まる点を占める格子が形成されます。幾何学的PE(正弦波、RoPE)はこの格子を直線へ射影します——位置=距離として扱い、乗法構造を捨て去ります。私たちはそれを復元することを提案します。
動機は演繹的な連鎖に従います。言語の語彙頻度はZipfの法則に従います:freq(rank) ∝ 1/ranks(s≈1)。Zipfの生成関数はリーマンゼータ関数ζ(s) = Σ 1/ns.です。ゼータ零点——ζが最大限に情報を持つ領域——は明示的公式により素数の調和で生成されます。したがって、素数の調和構造と、それが生成する乗法格子は、言語における位置を符号化するための自然なスペクトル基底を与えます。
1.2 発生源としての素数、座標としての合成数
重要な区別:素数は乗法格子の生成子(基底ベクトル)です。それらは、直線→円→球→超球へと進む過程における1次元の線分に相当します。合成数12 = 2²×3は素数の代替ではありません——それは、(p₂, p₃, p₅, p₇,...)の基底における座標(2,1,0,0,...)として示される、素数軸が張る格子上の座標点です。
2π/12を周波数として用いると、12の倍数で共鳴する調和が符号化されます。これは同時に、2のすべての倍数、3のすべての倍数、4のすべての倍数、6のすべての倍数に当たります。
n次元幾何学へのアナロジーは正確です:
次元の進行 乗法格子
1D直線 (2r) — 生成子 素数 (2, 3, 5, 7, ...) — 生成子
2D円 — 線分を角度にわたって掃引した積分 半素数 (6=2×3, 15=3×5) — 2因子積
3D球 — 円を軸3にわたって掃引した積分 3因子の合成数 (30=2×3×5)
nD球 体 — 再帰的な積分 原始数積(2310=2×3×5×7×11) — 最大共鳴
n次元球の体積が、(n-1)次元球を積分によって組み立てることで構成されるのと同様に(「ナイトの一手」—素朴な積み上げではない)、合成数の調和共鳴も、乗算によって素因子から組み立てられます(素朴な加算ではありません)。
2.1 Zipf-Zetaのつながり
言語の語の頻度はZipf(s≈1)に従います。Zipfの生成関数はζ(s) = Σ 1/ns.です。ゼータ零点t_nは、ζが最大限に情報を持つ場所——素数分布の滑らかな近似が破綻する場所——です。言語がZipf型の統計を持つなら、ζを支える素数の調和構造は、位置埋め込みのための自然なスペクトル基底を与えます。
最も一般的な語——I、me、you、us——は短いです。これは、Shannonの最適化が、高頻度の信号に対して簡潔さを好むためです。原始数積——2、6、30、210、2310——は乗法格子で同じ役割を果たします。すなわち、すべての小さな素数の調和が同時に同期する最大共鳴のアンカーです。
2.2 ナイトの一手:直線から格子へ
1DからnD幾何へと進む過程では、各次元は単に「積み重ねられる」のではなく、積分されます。n次元球の表面積は体積の導関数です:S_n = dV_n/dr。アルキメデスの洞察は、球の断面が新しい軸をたどるにつれて変化すること(x² + y² = 1 − z²)であり、体積は素朴な乗算では計算できない、という点です。
乗法格子も同じ構造を持ちます。共鳴関数R(Δ) = Σ_p cos(2π·Δ/p)/pは、合成数の距離では素数ごとの独立な寄与へ分解されません——調和が干渉するからです。原始数積の距離Δ = 30 = 2×3×5では、R ≈ 0.456が得られますが、それは2、3、5の寄与を単純に足し合わせた結果ではなく、3つの調和がその点で建設的に干渉するためです。素数の距離Δ = 17ではR ≈ −0.468になります。これは、Δがすべての小さな素数と互いに素であり、破壊的な干渉を生むためです。
これは注意機構におけるカオスの縁です:コヒーレンスのための原始数積アンカーと、剛直な反復に対する素数ギャップの非周期性。
構造上の問題:幾何学的周波数は、一部のスケールでは冗長なカバレッジを生み、別のスケールではギャップを生みます。連続する周波数の比が一定であるため、トークン位置間の算術的関係を符号化する仕組みがありません。位置12と位置6は6だけ異なり;位置12と位置13は1だけ異なります。幾何学的PEは、これらの差の大きさしか符号化しません。格子PEは、12 = 2²×3が6 = 2×3と因子を共有していることを符号化しますが、13(素数であり、両方に対して互いに素)は符号化しません。
- 方法
3.1 SpectralRoPEAttention
幾何学的RoPEの周波数を、注意ヘッドに対して3つの階層にわたり割り当てられた整数インデックス付き周波数に置き換えます:
Tier Heads (n=12) Integer Range Function
Local 0–2 (25%) 2..101 Word/syntax
Mid 3–6 (33%) 101..1009 Clause/paragraph
Long 7–11 (42%) 1009..8209 Section/document
各階層の範囲内で、整数nに対して周波数を2π/nとし、対数間隔(log-spacing)によってカバレッジを最大化するように選択します。
3.2 SpectralALiBiAttention — 主たるアーキテクチャ
素数の回転を、学習されたALiBi距離の事前(prior)と組み合わせます:
score(i,j) = α_h · R_rotate(i,j) − slope_h · |i−j| + β_h · QK(i,j)/√d
ALiBiの傾きは標準値で初期化され、学習可能にします。ヘッドごとのfreq_scaleパラメータ(init=1.0)により、データからモデルが自然な高調波基底を見つけられるようになります — RoPEのハードコードされたbase-10000とは対照的です。
このアーキテクチャは、見かけ上のトレードオフを解消します:
注意スコアは、素数の高調波干渉から直接導出されます:
R(Δ) = [Σ_p cos(2π·Δ/p) / p] / R(0)
score(i,j) = α_h · R(i−j) + β_h · QK(i,j)/√d
R(Δ)には物理的な解釈があります:距離Δにおける素数の高調波波同士の建設的干渉(constructive interference)の振幅です。原成積(primorials)はR ≈ 0.58–0.70(最大の建設的干渉)を達成し;素数距離ではR ≈ −0.11から−0.47(破壊的干渉)になります。
- 実験
クラスター間のギャップ(~5–7 PPL)は大きいです。格子対応(lattice-aware)のクラスター内のギャップ(~0.2 PPL)はノイズです。
なぜ合成数は素数と同じくらい機能するのか:合成数は素数の代替ではありません。同じ乗法的格子における高次の座標です。合成数12 = 2²×3は、周波数2π/12を符号化し、その高調波が12の倍数で共鳴します — 同時に2、3、4、そして6の倍数も“同時に”打ち当てます。合成数は、その素因子が持つ算術構造を継承します。合成数を使うことは、「生成半径」ではなく「表面積」から3球の体積を計算するようなものです — 同じ構造への別の入口です。
なぜスクランブルした素数が失敗するのか:正しい周波数が、間違ったスケールにある。この状況は、正しいn-ballの公式を持っているのに、7球の表面積を使って3球の体積を計算するようなものです。局所(local)のヘッドは小さい周期のジェネレータを必要とし;長距離(long-range)のヘッドは大きい周期のジェネレータを必要とします。次元の割り当てが“荷を負う”構造(load-bearing)です。
4.4 ZetaZeroPredictor — 機械的な検証(Mechanistic Validation)
3つの同一な50Kパラメータのトランスフォーマを、10,000エポック学習して、50ギャップの文脈ウィンドウからリーマンゼータのゼロギャップを予測します。これは、格子整合(lattice-aligned)PEが単なるより良い近似ではなく、真の算術整合を与えるかどうかを調べます。
ZZPベースラインに関する注記:ZZPの「geometric_rope」バリアントは、回転埋め込みではなく加法的な正弦波PEを使用します。SpectralALiBiは、真正の回転適用(rotary application)を用います。これにより比較はわずかに非対称になります — ZZPの結果は、特に回転メカニズムそのものというより、格子整合された周波数が幾何学的周波数より優れていることを示しています。
- 理論解析
5.1 演繹的な議論
(1) 言語はZipf(s≈1)に従う。(2) Zipfの生成関数はζ(s)である。(3) ゼータのゼロはζの素数高調波構造を符号化している。(4) したがって、素数によって生成される乗法的格子は、言語位置のための自然なスペクトル基底を与える。
手順(1)〜(3)は確立された数学です。手順(4)は動機づけられた推測であり、実験的証拠によって支持されています — ZZP実験では、格子整合された周波数を使うモデルが、幾何学的周波数を使うモデルよりもゼータのゼロ構造を60〜81%良く学習することが示されています。しかし、「ζがZipf的統計を符号化している」から「乗法的格子が位置符号化の正しい基底である」へ、という部分は定理ではなく推論上の飛躍のままです。
5.2 次元アナロジー
乗法的格子における素数と合成数の関係は、n-ballの進行における次元の関係を反映しています:
n-ballの体積はV_n(r) = πn/2 / Γ(n/2 + 1) · rn. です。各次元は積み重ねられるのではなく、統合されます — 円は、ある線が角度を掃く様子の積分であり、球は、軸に沿って円がどのように変化するかの積分です。
同様に、素数は乗法的格子の1次元のジェネレータです。合成数は高次元の点です。合成までの距離Δ = p₁a₁ · p₂a₂ · ... における共鳴関数R(Δ)は、個々の素数寄与の単なる和ではなく、それらの干渉パターンです — 原成積(primorials)では建設的に、素数では破壊的に作用します。ちょうど、円の半径がzに依存するためV_3をV_2 × 2rを素朴に掛け合わせることで計算できないのと同様に、合成数の共鳴を独立した素数チャネルに分解することもできません。
アルキメデス的射影が適用されます:新しい軸に沿って進むにつれて断面が縮む(依存性)ということは、構造の中ですでに符号化されています。合成数は素因子を持ち、格子は干渉を担います。
5.3 シノン(Shannon)容量
素数列は、決定論的列の間で最大限にエントロピー的です。リーマン予想は、素数が滑らかな近似から可能な限り少しだけ逸脱する、という主張と同値です。整数周波数に基づくPEは、したがって位置情報チャネルにおけるShannonのチャンネル容量に近いところで動作します。対数一様(log-uniform)な間隔を持つ幾何学的PEは、いくつかのスケールで冗長なカバレッジが生じるため、容量より下で動作します。
5.4 なぜ幾何学的PEはゼータのゼロで発散するのか
ゼータのゼロt_nは、明示的な(explicit)公式における素数高調波への寄与がすべて同時に打ち消し合う点です。幾何学的PEを持つモデルには、素数高調波周波数に対応する基底ベクトルがありません — この打ち消し条件を表現できません。ある周波数スケールでの更新が他のスケールに対する近似を乱し、9,783エポックにわたって観測される発散を引き起こします。
格子整合されたPEは、まさに適切な周波数に基底ベクトルを持っています。打ち消し条件は直接表現可能です。安定するアトラクタ(stable attractor)は、その基底における勾配ダイナミクスの固定点です。
このことは、格子PEのKVキャッシュが、幾何学的PEのKVキャッシュよりTurboQuant下でよりよく圧縮されることを予測します — 同じビット幅での歪みがより小さい、あるいは同等の品質をより少ないビットで達成できる、ということです。もし確認されれば、これはPE研究を最適圧縮理論へと結びつけます:符号化は位置チャネルの情報量を最大化し(Shannon容量の議論、セクション5.3)、圧縮はそれを保存する際の歪みを最小化します(TurboQuant、Shannonのレート歪み境界から2.7倍以内)。どちらも、同じ根本構造を反対側の端から最適化しているのです。
経験的な裏付け(2026-04-05)。KVキャッシュに対するVHT2の帯域付き量子化は、上で予測された構造的非対称性を直接的に裏付けます。Kベクトル(RoPEの位置エンコーディングを担う)は強いWalsh-Hadamard(WHT)スペクトルの集中を示します:5/5/4/3ビットへの4バンド割り当て――WHTエネルギーの減衰をなぞる――は、3.2×の圧縮でK相関0.9928を達成します。Vベクトル(内容を担う)は全バンドにわたってWHTエネルギーが一様です。平坦な3ビット符号化(n=1バンド)は、Vに対して帯域付きいかなる構成よりも優れます:V相関0.9652で4.7×の圧縮、つまり帯域付き3/3/3/3(3.6×で、より悪いPPL)より厳密に良好です。KVの組み合わせ結果――Qwen3-8BでPPL +1.24% のまま3.8×、Dolphin 1BでPPL +0.60% のまま3.4×――は、head_dim=64とhead_dim=128の両方で一貫しています。
これが理論が予測する構造的非対称性です。Kは位置を符号化(算術構造、スペクトル集中)し、Vは内容を符号化(算術構造なし、均一なスペクトル)します。WHTはZ/2ZのVilenkin-Hartley基底です――PrimePEが符号化する乗法格子構造をKが持つからこそ、Kに対してWHTは自然な変換です。Vにはこの構造がなく、変換による有利さが得られません。完全なスイープデータ:llama-cpp-turboquantリポジトリの docs/prime/VHT2_COMPRESSION_RESULTS.md。
- 議論
6.2 生成元としての素数、目的地としてではない
反証(falsification)の結果は、素数が関連する構造の最小の生成元であることを示しますが、合成数(composites)でも同様にうまくいきます。なぜなら同じ格子を符号化するからです。これは実際、「素数は特別である」というより強い結果です――整数全体の乗法構造が、位置エンコーディングの自然な基礎(basis)であり、素数は単にそれを最も経済的に広げる方法にすぎないことを示しています。
RoPE/ALiBiのトレードオフは本質的なものではありません。位置を「距離」として符号化していること――算術的な同一性ではなく――が作り出した副産物です。SpectralRoPEALiBiは、相対位置不変性、長コンテキスト安定性、算術的な位置同一性を同時に実現し、あらゆるコンテキスト長512→8KでALiBiを上回ります。
反証スイートが与える重要な洞察は次のとおりです:本質となるのは、素数性それ自体ではなく、整数の乗法格子です。素数はこの格子の生成元であり、合成数は同じ構造における派生座標です。どちらも機能します。機能しないのは、格子を捨て去る符号化――ランダム周波数、スクランブルされたティア、あるいは純粋な距離減衰――です。
ZetaZeroPredictorが最も深い証拠を提供します:独立した2つの10,000エポックの実行にわたって、幾何学的なPEは安定した解を見つけませんが、格子に整合したPEは r=0.81〜0.86 の予測相関を伴う安定したアトラクタを実現します。乗法格子は、素数分布と言語の両方の土台となる算術構造に対する自然なスペクトル基底です。
宇宙は整数の算術の中に位置を符号化します。ならば我々もそうすべきでしょう。
付録A:共鳴関数の値
Δ R(Δ) 種別 注記
0 1.000 — 自己
2 0.757 素数 最小の生成元
6 0.580 原始数 2×3
7 −0.271 素数
12 0.437 合成数 2²×3 — 格子点
17 −0.468 素数 最も負の値
30 0.456 原始数 2×3×5
210 0.695 原始数 2×3×5×7 — 最も高くテストされた
2310 0.540 原始数 2×3×5×7×11
付録C:実験構成
LR peak 3×10⁻⁴ 3×10⁻⁴ 1×10⁻³
Knack(2026)— VHT2 バンデッドKVキャッシュ圧縮 研究結果、VHT2_COMPRESSION_RESULTS.md
付録D:VHT2 KVキャッシュ圧縮 ― 経験的結果(2026-04-05)
D.1 最適構成
K:n=4バンド、bits=5/5/4/3、sk=head_dim。V:フラットint3(n=1バンド)、sk=head_dim。
5/5/4/3のK割り当てはRoPEからのWHTエネルギー減衰を反映しています。Vにはスペクトル集中がありません――フラットが、あらゆる圧縮レベルで帯域付きより勝ちます。
D.2 モデルごとの結果
モデル head_dim K × V × Total × PPL ΔPPL
Dolphin3.0-Llama3.2-1B 64 2.8× 4.3× ~3.4× 13.1745 +0.60%
Qwen3-8B 128 3.2× 4.7× ~3.8× 9.4482 +1.24%
より大きいhead_dimは圧縮を自動的に改善します:バンドごとの2バイトfp16スケールオーバーヘッドは、より多くのデータ要素にわたって償却されるためです。
D.3 K≠V 構造的非対称性
WHTエネルギー分布は、スペクトル構造の直接的な経験的シグネチャです:
Kベクトル(RoPE-エンコード):最初のWHTバンドにエネルギーが集中。n=4バンドの帯域付き割り当て(5/5/4/3)が自然な減衰を捉えます。3.2×で相関0.9928。
Vベクトル(内容):WHTエネルギーは全バンドで一様。帯域付き割り当てはスケールオーバーヘッドを増やすだけで、利点はありません。フラットint3は、V相関0.9652で4.7×――帯域付き3/3/3/3が3.6×で達成するよりも厳密に良い――を与えます。
この非対称性は格子理論によって直接予測されます:Kは、乗法の算術的関係から導かれる角速度(格子構造)を担い、Vは、そのような算術構造を持たない学習済みの内容射影を担います。
D.4 重要なルール
sk = head_dim は常に成り立つ。WHTはベクトル全体を必要とする。head_dim=64でsk=32 → PPL +47%。
3ビットの下限。どのバンドでも2ビットは壊滅的(V:4/2 → PPL +1.59%)。
Kに対してn=4が最適。バンド数を増やすとスケールオーバーヘッドが増える;n=5とn=8はノイズの範囲内だが、圧縮では14%のコスト。
Vではフラットが帯域付きに勝つ。スイープ中に例外はない。
完全な結果テーブル
Vスイープ(Dolphin 1B、K固定5/5/4/3 n=4)
| V Config | V corr | V × | Total × | PPL | ΔPPL |
| flat int3 n=1 | 0.9708 | 4.3× | ~3.4× | 13.1745 | +0.60% ✅ |
Flat int3 が勝つ: 高い圧縮(4.3× vs 3.6×)で、帯域付き 3/3/3/3 よりPPLが低い(PPLで0.18だけ良い)。帯域付きVは厳密に悪い。
最良構成:K n=4 5/5/4/3 + V flat int3
| モデル | K × | V × | 組合せ × | PPL | ΔPPL |
| Dolphin 1B (hd=64) | 2.8× | 4.3× | ~3.4× | 13.1745 | +0.60% |
| Qwen3-8B (hd=128) | 3.2× | 4.7× | ~3.8× | 9.4482 | +1.24% |
VはQwenに対してKのみの上に加えるだけでPPLを+0.29%(9.4208 → 9.4482)向上させます。Vの
圧縮は、品質面ではほとんど無償に近い。
旧式 Shadow Cache(1キャッシュあたり2.3×)との比較
| キャッシュ | Old | VHT2 | 利得 |
| K | 2.3× | 3.2× | +39% |
| V | 2.3× | 4.7× | +104% |
| 組合せ | ~2.3× | ~3.8× | +65% |
llama.cpp の内蔵KV量子化との比較
| 手法 | K | V | 組合せ | PPLコスト |
| q8_0(ベースライン) | 2× | 2× | 2× | ~0% |
| q4_0 フラット | 4× | 4× | 4× | ~1-3% |
| VHT2 最良 | 3.2× | 4.7× | ~3.8× | +1.24% |
VHT2のV(4.7×)は、フラットq4(4×)に勝ります。これは、ベクトルごとのfp16スケーリングが
q4のブロック量子化よりも外れ値(outliers)をうまく扱えるためです。VHT2のK(3.2×)はフラットq4より
わずかに下回りますが、スペクトルの帯域割り当ては、フラット量子化が一律に壊してしまうRoPE構造を
保持します。
head_dim=128、28層、8 KVヘッドでのRAM影響
| コンテキスト | fp16ベースライン | Old(2.3×) | VHT2(3.8×) |
| 2048 | ~460 MB | ~200 MB | ~121 MB |
| 32K | ~5.9 GB | ~2.6 GB | ~1.56 GB |
最適まとめ
| 量子化 | Bits/Weight | ベースラインPPL | 最良PPL | 最適alpha | 改善 |
| Q8_0 | 8.0 | 11.6413 | 11.5462 | 0.22 | -0.82% |
| Q6_K | 6.6 | 11.7615 | 11.6843 | 0.17 | -0.66% |
| Q4_K_M | 4.8 | 12.2380 | 12.1630 | 0.17 | -0.61% |
解析
普遍的な改善: 素数周波数のブレンディングは、あらゆる量子化レベルでPPLを低減します。3つすべての曲線は、ノイズではなく明確な最適点を持つスムーズな放物線であり、誤差ではないことを示しています。
改善量は一貫しています: すべての量子化レベルで~0.6-0.8%です。これは、素数(prime)の周波数が、量子化(quantization)とは 別種の誤り を修正していることを意味します(位置の周波数不一致 vs 精度の損失)。この2つは独立しており、加算されます。
高いアルファでの悪化は、低い精度ほど急です: alpha=0.50 の Q4_K_M は +5.4% 低下し、Q8_0 は +4.0% だけ低下します。攻撃的な算術置換はモデルを不安定化させ、量子化はその不安定さを増幅します。
フラット領域(alpha=0.15-0.22): 3つのモデルすべてで、比較的フラットな最適化領域が見られます。これは、alpha が「刃のような」パラメータではないことを意味します。つまり [0.15, 0.22] の任意の値がほぼ最適な結果を与え、生産投入に対して頑健です。
クロスアーキテクチャ結果(確認済み)
重要な発見: 最適 alpha は rope_freq_base と相関します。ベースが高いほど、高調波のギャップが広くなり、素数の注入(prime injection)の余地が増えます。Phi(base=10K)は周波数がすでにぎっしり詰まっており、改善の余地がほとんどありません。Llama3(base=500K)はギャップが最も広く、最も恩恵を受けます。
クロスアーキテクチャの検証: 改善の方向性は、テストしたすべてのアーキテクチャで普遍的に正しいです(PPL が減少)。乗法構造は普遍的ですが、感度はモデルが持つ既存の周波数カバー範囲によって変わります。
外部検証: 利用者による独立テストで Qwen3-8B を確認しました。prime_rope 単独では -0.24% である一方、TQ3 は Qwen3-8B を +36% 悪化させます。TQ の WHT(Z/2Z)はアーキテクチャ固有です。一方、私たちの素数周波数は普遍的です。
上流 TQ の分析
現在の TQ の「小細工」(および、それが存在する理由)
| 小細工 | 内容 | 必要な理由 | 原理に基づく代替 |
| レイヤーブロッキング | 最初/最後の N レイヤーをスキップ | 境界レイヤーは「特別」だから | 素数因子の座標: PRS に基づいて異なるレイヤーに異なる精度を割り当てる |
| K のみ圧縮 | K だけを圧縮し V は圧縮しない | K がより敏感(RoPE を運ぶ) | 私たちの理論が説明: K は位置の構造を持ち、V はコンテンツの構造を持つ。各エンジンを別にする。 |
| Lloyd-Max セントロイド | 非一様な 2/3/4-bit 量子化 | 一様量子化は WHT 後に失敗する | PolarQuant: 大きさ/方向の分離は自然 |
| 密な回転(TQ4) | 128x128 ガウス+QR 行列 | WHT だけでは 4-bit に不十分 | Vilenkin-Hartley: もっと多くの素数を用いた O(n log n) より豊かな回転 |
| QJL 残差 | TQ4 残差に対する 1-bit ランダム射影 | WHT はすべてを捉えきれない | Vilenkin によってエネルギーがより集中するため、残差はより少なくて済む |
| nosigns byte | 一部のモードでは符号の保存をスキップ | ビットを節約 | Hartley カーネルでは、文字の中に符号構造が暗黙に含まれる |
| 内部Q スケーリング | チャンネルごとのイコライジング | 外れ値分布は偏っている | 素数周波数の整列が自然にチャンネルのエネルギーをバランスする |
| 7 つの適応モード | レイヤーごとの戦略選択 | 1つの戦略ではすべてに合わない | PRS に導かれる 1つの戦略を用意し、自動的に適応する |
核心となる問題
コミュニティは WHT を「圧縮トリック」として扱っています — 外れ値を散らすために回転し、量子化して、再び回転を戻す。これはそれがより深い構造の Z/2Z の場合だという理解がありません。このギャップの症状として、あらゆる小細工が現れています。
私たちの枠組みは、なぜ WHT が機能するのか(乗法構造)を説明する理論を提供し、さらにそれを 一般化 します(すべての素数に対して Vilenkin-Hartley)。適切な変換を選べば、ほとんどの小細工は不要になります。
次に何をするか
1.クロスアーキテクチャ総当たり:** Phi-3.1 と Qwen2.5 で普遍的な改善を確認
推論経路で Vilenkin-Hartley:** 上流の WHT バタフライ係数を Vilenkin のキャラクタに置き換え
素数 + TQ の組み合わせテスト:** prime_rope を有効にした上で turbo3/turbo4 キャッシュで実行
レイヤーブロッキングの除去:** PRS に導かれる適応戦略をテスト
K+V 圧縮:** Vilenkin で V の圧縮をテスト(理論では WHT よりうまくいくはずと予測)
コンテキスト長のスケーリング:** 512/1024/2048/4096 をスイープして劣化曲線を測定
docs/prime/VHT2_COMPRESSION_RESULTS.md
VHT2 バンド付き KV キャッシュ圧縮 — 研究結果(2026-04-05)
要約
2つの参照アーキテクチャにまたがり、K と V の両方のキャッシュに対して、最適な VHT2 バンド付き量子化設定を確立する系統的スイープ。
重要な発見:
単一の設定(K: n=4 バンド 5/5/4/3、V: フラット int3)が、すべてのテスト済み head 次元において最適であり、総 KV 圧縮は約 3.4〜3.8×、PPL コストは <1.25% です。
方法
シャドーキャッシュが KV の書き込みを受け止めます。各 head ベクトルは:
Walsh-Hadamard(WHT = Z/2Z Vilenkin-Hartley)で変換される
N 個の等サイズバンドに分割(高 → 低のスペクトルエネルギー順)
各バンドを、そのバンド専用の fp16 スケール + まとめ込み int 値で量子化
読み出し時に逆 WHT により再構成
V についても同じパイプラインが利用できますが、単一バンド(フラット)モードを使用します
これは V にスペクトルの集中がないためです(以下の発見を参照)。
K: n=4 バンド、5/5/4/3 ビット、sk は head_dim と一致させる必要がある
| モデル | アーキテクチャ | head_dim | KV heads | レイヤー | ベースライン PPL |
| Dolphin3.0-Llama3.2-1B Q8_0 | Llama 3.2 | 64 | 4(MHA)| 16 | 13.0957 |
| Qwen3-8B Q8_0 | Qwen 3 | 128 | 8(GQA)| 28 | 9.3317 |
発見 1: sk は head_dim と一致する必要がある
WHT は head ベクトル全体を必要とします。サブサンプリングは品質を壊滅的に崩します。
| sk | K corr | 圧縮 | PPL | ΔPPL |
| 16 | 0.8615 | 4.6× | 43.39 | +231% |
| 32 | 0.9073 | 3.9× | 19.28 | +47% |
| 64 | 0.9941 | 2.8× | 13.11 | +0.12% ✅ |
(Dolphin 1B、head_dim=64)。sk=32 では WHT が head の半分しか見ていないため、
変換が基底をまたぐ(span する)ことができなくなります。sk は head_dim と 正確に一致 させる必要があります。
発見 2: 最適な K 設定は n=4 バンドの 5/5/4/3
WHT は K のエネルギーを最初のいくつかの係数に集中させます —
これは RoPE によってエンコードされた位置情報の構造的な特徴です。5/5/4/3 の
割り当ては、実際の WHT エネルギー減衰を反映しています。つまり、信号のある場所にはより多くのビットを配分します。
Dolphin 1B(head_dim=64、1バンドあたり16要素)
| 設定 | K corr | K × | PPL | ΔPPL |
| 5/5/4/3 n=4 | 0.9941 | 2.8× | 13.1119 | +0.12% ✅ |
Qwen3-8B(head_dim=128、バンド数を変化)
| 設定 | K corr | K × | PPL | ΔPPL |
| n=4: 5/5/4/3 | 0.9928 | 3.2× | 9.4208 | +0.95% ✅ |
| n=5: 6/5/5/4/3 | 0.9947 | 2.8× | 9.3888 | +0.61% |
| n=8: 6/6/5/5/4/4/3/3 | 0.9945 | 2.8× | 9.3661 | +0.37% |
3-bit の下限: どのバンドでも 2 ビットは壊滅的です。最低限必要 = 3 ビット。
発見 3: V にはスペクトルの集中がない — フラットがバンディングに勝る
K は RoPE の位置エンコーディングを担っており、
その結果、最初の WHT バンドに特徴的なエネルギー集中が生まれます。V はコンテンツ(値)を担っており、
そのような構造はありません。V の WHT エネルギーはバンド全体に一様です。
結論: バンド付き量子化は、V に対して恩恵がないのにスケールのオーバーヘッドだけが増えます。
フラット量子化(n=1 バンド、全要素で同じビット幅)は、あらゆる圧縮レベルでバンド付き
より優れています。
V スイープ(Dolphin 1B、K は 5/5/4/3 n=4 に固定)
| V 設定 | V corr | V × | 総 × | PPL | ΔPPL |
| 5/3 n=2 | 0.9871 | 3.2× | 3.0× | 13.2058 | +0.84% |
| 4/2 n=2 | 0.9003 | 4.0× | ~3.4× | 13.3036 | +1.59% |
| flat int3 n=1 | 0.9708 | 4.3× | ~3.4× | 13.1745 | +0.60% ✅ |
| flat int4 n=1 | 0.9944 | 3.4× | ~3.1× | 13.2064 | +0.84% |
フラット int3 が勝ち: バンド付き 3/3/3/3 より PPL が低い(高い圧縮レベルで 0.18 PPL だけ良い)ためです
compression(4.3× 対 3.6×)。Banded V は厳密により悪い。
Key finding: Vilenkin 構造化シグナルは、LLL の前からすでにほぼ直交している(OD=75 対 geometric の 410)。つまり Vilenkin 基底は自然な座標系であり、格子はすでに縮約にかなり近い。最高の PRS(19.37)が、素数構造が Vilenkin 構造化格子で最もよく生き残ることを確認している。
4. 独立したトラバーサル検証
5 種類の異なるシグナル型に対して、半 Mobius とスピノル・トラバーサルをテストした:
| Signal | Mobius Reduction | Mobius Agreement | Spinor Agreement |
| prime_harmonic | 36% | 83% | 100% |
| pure_harmonic | 35% | 100% | 100% |
| white_noise | 21% | 66% | 100% |
| chirp | 31% | 100% | 100% |
| prime_resonance | 37% | 100% | 100% |
5. クロス戦略再構成
あらゆる再構成手法を、あらゆるシグナル型でテストした:
| Signal | Walsh | Vilenkin(k=5) | Zero-crossing |
| prime_harmonic | 0.958 | 0.963 | 0.891 |
| geometric | 0.950 | 0.974 | N/A |
| arithmetic | 0.950 | 0.968 | N/A |
Key finding: Vilenkin は素数ハーモニックだけでなく、すべてのシグナル型で Walsh に勝つ。優位性が最も大きいのは geometric シグナル(+2.4%)。
これは、Vilenkin が geometric な進行を支える乗法的構造を捉えているため、筋が通る。
- スケールのオーバーヘッドが最適なバンド数を決める。 n=4 のとき:4 × 2バイトのスケール
= raw の 128×2=256 バイトに対する 8 バイトのオーバーヘッド。n=8 のとき:16 バイトのオーバーヘッド。
バンド数が増えるほど品質向上が統計的に明確でない限り圧縮は悪化する。
- 3-bit 床。 どのバンドでも 2-bit エンコードは破滅的。WHT
下位バンドの係数は小さいが無視できない — 符号 1 ビット
+大きさ 1 ビットでは不十分。
- sk = head_dim、常に。 WHT はフルベクトルを必要とする。いかなる切り詰め
も変換の「張る(spanning)」性質を壊す。
16 変更:15 の追加 & 1 の削除16
ggml/include/ggml.h
PrimePE / Position_Is_Arithmetic — セッションコンテキスト v3
日付:2026年4月5日 | 更新:VHT2 バンデッド圧縮の検証 + Qwen3-8B スイープ完了
このプロジェクトを1段落で
PrimePE は、回転符号化(rotary-encoded)トランスフォーマにおけるコンテキストは保存すべきデータではなく、自己逆行列の両側から読み取るべき構造であることを証明する。KV キャッシュは、注意(attention)を一方向に計算する際のエンジニアリング上の副産物であり、逆方向では同じ構造的関係から保存なしでコンテキストを再構成できる。主要なプロダクション成果:alpha 0.15〜0.20 でブレンドした複合ティア周波数を、llama.cpp 経由で Llama 3.2 1B に導入することで、再学習なしに PPL が改善(11.03 ベースラインから 10.91 へ)。VHT2 バンデッド KV 圧縮(n=4 バンド、K:5/5/4/3 + V:flat int3)は、総 KV 圧縮 3.4〜3.8× を <1.25% の PPL コストで達成し、以前の 2.3× ベースラインから向上 — Dolphin 1B および Qwen3-8B で検証済み。K と V は構造的に異なる戦略を必要とする:K は RoPE 由来のスペクトル集中(最初の WHT バンドにおける WHT エネルギー)を持ち、V は一様なエネルギー(フラット量子化が勝つ)を持つ。Walsh-Hadamard/VHT2 は自然な基底であり、なぜなら K は Walsh シグナルだから。理論的基盤:Redheffer 行列(整数の可除性格子)とその逆行列(メビウス関数)が同じ情報を含む — どのレベルでも計算は不要で、構造を逆方向から読み取るだけだ。
理論的ブレークスルー(後半セッション)
中核となる主張:KV キャッシュは「データ」ではなく「ビュー」
分野は、コンテキストを保存して圧縮すべきデータとして扱う。しかしそれは間違いだ。コンテキストは構造であり、具体的には位置をインデックスする整数の可除性/乗法的構造である。KV キャッシュとは、トークン埋め込み × 位置回転 × 注意重み を一方向に掛け合わせたときに得られるもの。再構成されるコンテキストは、逆方向での「同じ掛け算」である。同じ行列、同じ情報、保存は不要。
N-ball の構成
n-ball の各次元は 1 つの素因数に対応する:
n1(線): 2r。素数。1D の基底 — 普遍的な数直線。
n2(円盤): πr²。素因数が 2 つの合成数。線 × 単位円(デカルト積)。
n3(球): 4/3πr³。素因数が 3 つの合成数。円盤 × 単位円。
n_k: 新しい各次元は円で掛け算される。各円=素因数が 1 つ増えることを意味する。
「ナイトの一手」とは、各次元が前の次元からどう構築されるかを表す — それはトラバーサル戦略ではなく、構成方法である。アーキメデスは、球→円筒の射影が面積を保つことを示した。これは次元間の不可逆でない射影(損失のない射影)だ。
Redheffer 行列
n×n 行列 R に対して:R(i,j) = i が j を割り切るなら 1、または j = 1 なら 1。それ以外は 0。
det(R_n) = M(n) — メルテン関数(メビウス関数の累積和)
下三角の可除性行列の逆行列=メビウス関数の値
メビウス関数 μ(n): n が平方因子を持てば 0、相異なる素因数が k 個なら (-1)k
割り算可能性(divisor)たちの行列を反転することで、すべての素数の位置を取り出せる。ふるいも、計算もない。構造そのものが答えだ。
自己逆(self-inverse)の原理
同じ「非計算」トリックは n-ball のあらゆるレベルで、しかも「逆方向」にも使える:
Walsh/Hadamard:H × H = Identity。分解も再構成も、同じ操作で行える。
Redheffer:行列とその逆行列は、2 つの方向から見ても同じ情報を含む。
コンテキスト:分解された形とシグナルの形は、同じ行列を別の読み方で見たもの。
Vilenkin 系:完全な基底
Walsh 関数は Z/2Z(2進数—1 つの素数)を使う。Vilenkin 系は任意の α_k に対して Z/α_kZ へ一般化する。α_k を k 番目の素数に設定すれば、完全な「素数インデックス付き」の直交システムが得られる。Walsh は 1 つの素数次元で 0.948。Vilenkin はすべての素数を使えば EXACT になる。
検証済みの結果
Walsh 再構成 — THE KEY RESULT
| Method | Correlation | Compression | Sparsity |
| WHT 90% energy | 0.948 | 2.3x | 57% |
| Sign pattern + amplitudes | 0.692 | 1.14x | — |
| Pure binary (no amplitudes) | 0.521 | 1.14x | — |
Walsh は 0.948 を得るのに対し、Fourier は 0.15。シグナル自体が Walsh シグナルだ。係数の 57% を捨ててもほぼ完全に再構成できる。WALSH は3つの戦略すべてで勝つ。
VHT2 バンデッド KV 圧縮 — 検証済み(2026-04-05)
Dolphin 1B(head_dim=64)と Qwen3-8B(head_dim=128)で系統的スイープを行い、最適構成を確立した。K は RoPE 由来のスペクトル集中(最初の WHT バンドにエネルギーが集中);V はそうではない(一様分布)。つまり異なる戦略が必要。
最適構成:K n=4 バンド 5/5/4/3 + V flat int3
| Model | K × | V × | Combined × | PPL | ΔPPL |
| Dolphin 1B (hd=64) | 2.8× | 4.3× | ~3.4× | 13.1745 | +0.60% |
| Qwen3-8B (hd=128) | 3.2× | 4.7× | ~3.8× | 9.4482 | +1.24% |
以前のシャドウキャッシュ(2.3×それぞれ)に対して:結合で +65% の圧縮、しかも品質はより良い。
llama.cpp の q4_0 flat(4×)に対して:4.7× の V が flat q4 に勝つ。3.2× の K はより保守的だが、フラット量子化が壊してしまう RoPE のスペクトル構造を保持する。
発見された重要ルール:
sk は head_dim と完全に一致する必要がある(hd=64 で sk=32 → PPL +47%)
3-bit 床 — 任意のバンドで 2-bit は破滅的
5/5/4/3 は WHT エネルギー減衰をミラーする — それからの逸脱は PPL を悪化させる
n=4 ビート、n=5/n=8 — スケールのオーバーヘッド(バンドあたり2バイト)が圧縮による利益を打ち消す
Kはバンデッドが必要;Vはフラットが必要(バンデッドVはフラットVより厳密に劣る)
RAMへの影響(head_dim=128、32Kコンテキスト):
- fp16 ベースライン: 5.9 GB → VHT2: 1.56 GB(約4.3 GB節約)
再構成スケーリング(2K → 10K 学習ステップ)
| 戦略 | L2 Corr 2K | L2 Corr 10K | L3 Linear 10K | Spinor QPS |
| prime_tiered | 0.107 | 0.146 | 0.355 | 0.578 |
| composite_tiered | 0.066 | 0.094 | 0.304 | 0.560 |
| geometric_rope | 0.015 | 0.028 | 0.323 | 0.457 |
レイヤ3 格子崩壊(固定)
量子化した3ビット整数インデックスに対するLLL(生の浮動小数点ではない)
prime_tiered: 平均ではなく中央値の norm_ratio=0.56、PRS保持=0.993
全戦略:PRSは生き残るが、99.6%のベクトルが変更される
重要な意思決定 & インサイト
KVキャッシュは「VIEW(ビュー)」であってデータではない。 コンテキストは、トークン列+位置(positional)構造+重みによって完全に決定される。キャッシュは乗算の片方向である。再構成がもう片方向。どちらも同じ行列。
コンポジットは格子そのもの。 私たちが割り当てる周波数ではない——実際の乗法的な構造。素数が次元である。コンポジットは位置(素因数分解の空間での座標)である。12 = 2²×3 は、(dim_2, dim_3) における位置 (2,1)。
ゼロ交差は共鳴検出。 コンポジット空間の「どこにいるか」を検出する。保存されたデータではない——メビウス関数の符号が変わる構造的な境界である。
Walshは、完全な構造の2進数への射影(ベース-2プロジェクション)。 1つの素数次元。0.948を得る。Vilenkin(全ての素数)なら厳密になる。
あらゆるレベルで自己逆。 H×H=I。同じ操作が分解と再構成を行う。Redheffer行列とその逆行列は同じ情報。どのレベルでも計算は不要——ただ、反対側から構造を読むだけ。
n-ball構築は計算する必要がない。 各レベルは、その下のレベルに暗黙に含まれている。反転すれば、構造が現れる。同じトリックがあらゆる次元で使える。
他の誰もが、間違った側を最適化している。 TurboQuant、スライディングウィンドウ、attention sinks —— どれも「コンテキストはデータだ」という前提を受け入れている。その前提は誤り。
アーキテクチャ
再構成フレームワーク
```
レベル1:調和分解 → 厳密(EXACT)
レベル2:ゼロ交差の再構成 → 0.09-0.15(Fourier)、0.948(Walsh!)
レベル3:トポロジカルな巡回 → スピノルが最も効率的
```
Walsh再構成(walsh_reconstruct.py)
```
手法1:WHT分解+疎な係数 → 0.948の相関
手法2:符号パターン+振幅 → 0.692の相関
手法3:純粋な2値の符号パターン → 0.521の相関
```
llama.cpp 統合スタック
```
レイヤ0:複合周波数ファクタを用いたRoPE
レイヤ1:VHT2によるバンデッドKV圧縮
K: n=4 5/5/4/3、V: フラットなint3
3.4-3.8× の複合、<1.25% のPPLコスト
レイヤ2:TurboQuant によるWHT+3ビット量子化
理論
[x] Vilenkin基底をフル実装(WHT Z/2ZをZ/p_kZに置き換え)
[x] attention再構成のためのRedheffer行列構築をテスト
[x] 学習済みW_Q/W_K行列のLLL解析
[x] 「反対側から読む」——逆方向の再構成
エンジニアリング
[x] GCD attention biasの実験
GitHub: nihilistau/Position_Is_Arithmetic




