広告

Bankai(卍解)—真の1ビットLLMに対する初めてのポストトレーニング適応手法。

Reddit r/LocalLLaMA / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 著者は、「Bankai(卍解)」と呼ばれる、推論オーバーヘッドを追加せずに、二値の重みに対してスパースなXOR「パッチ」を探索することで特定のタスク性能を改善する、真の1ビットLLM向けのポストトレーニング適応手法を提案している。
  • 真の1ビットモデルでは重みが厳密に0/1である(3値やパックされた変種とは異なる)ため、パッチとベースモデルの挙動差はXORマスクとして表現でき、同じXORをもう一度適用することでパッチは完全に可逆となる。
  • Bonsai 8Bでの実験では、保持データのタスク挙動を改善しつつ他の能力を維持するために必要なのはわずか93行の反転(重みの約0.007%)であることが報告されており、高スケールの行ほどランダムな行よりも影響が大きいという注記がある。
  • 本手法には、一般化(より多様なプローブで学習したパッチほど未見のプロンプトへうまく転移する)、パッチのスタッキング挙動(機械的には順序非依存だが部分的な相殺が起こり得る)、およびGSM8Kの一部における劣化傾向が見られないことに関する知見が含まれている。
  • 本研究は、真の1ビット重み構造によって可能になることを明示しつつ、LoRAスタイルのアダプタよりも導入上の利点があるとし、マイクロ秒単位でのパッチ適用、約1 KBのパッチサイズ、そして即時のホットスワップ可能性(例:スマホ向けにドメイン固有のパッチを保存しておく)を主張している。
Bankai(卍解)— 真の1-bit LLM向けの最初のポストトレーニング適応手法。

私はBonsai 8B — PrismMLの真の1-bitモデル(全ての重みが文字どおり0か1で、BitNetのように三値ではない)をいじって実験しています。重みがビットなので、2つのモデルの振る舞いの差は結局XORマスクになると気づきました。そこで、モデル挙動を変更するスパースなXORパッチを探索するツールを作りました。

基本的な考え方はこうです。重みの1行を反転し、他の何も壊さずにターゲットタスクでモデルが良くなったかを確認し、良ければ採用(または戻す)。受け入れられた反転の集合が、パッチです。

探索が一度も見ていないheld-outプロンプトで何が起きたか:

パッチなし: d/dx [x^7 + x] = 0 ✗ パッチあり: d/dx [x^7 + x] = 7x^6 + 1 ✓ パッチなし: 113は素数? いいえ、113は素数ではありません ✗ パッチあり: 113は素数? はい、113は素数です ✓ 

93行の反転。重みの0.007%。約1 KB。推論オーバーヘッドはゼロ — パッチ適用済みのモデルはそのままモデルで、トークンごとにアダプタを走らせません。マイクロ秒で適用でき、同じXORで元に戻せます。

8つの実験を通じた主な発見:

  • 50万件のランダムなビット反転では、パープレキシティはほとんど動きません(<1%)。モデルのバイナリ重みには大量の冗長性があります。
  • 高スケールの行は、ランダムな行よりも振る舞いへの影響が3.88倍大きいです — モデルのスケール係数が、どこを探すべきかを教えてくれます。
  • 6つのプローブで学習したパッチは特定のプロンプトを記憶します。60の多様なプローブで学習したパッチは、held-outの問題へ一般化します(4は固定、30の未見問題では0件が壊れました)。
  • パッチのスタッキングは機械的に機能します(順序非依存、完全に可逆)ですが、改善が部分的に相殺されます — 共同最適化は単純なスタッキングより上になるでしょう。
  • 50個のGSM8Kの語彙問題:劣化なし(22% → 28%、おそらくノイズですが、方向性はプラス)。

なぜ真の1-bitモデルでのみ機能するのか:

BitNet b1.58は三値の重み{-1, 0, +1}を2ビットとして詰めています。2ビット符号化に対するXORは無効な状態を生成します(XOR(01, 10) = 11は、有効な対応付けが存在しません)。Bonsaiは真のバイナリで、各重みは1ビットなので、XORによる反転は−scaleから+scaleへきれいに切り替わります。私の知る限り、真の1-bit LLM向けのポストトレーニング適応手法としてはこれが最初です。

デプロイ面:

LoRAアダプタはだいたい100 MBで、トークンごとにレイテンシが増え、切り替えるには重みの再ロードが必要です。XORパッチは約1 KBで、マイクロ秒で適用でき、推論コストはゼロです。スマホにドメイン別パッチをホットスワップするライブラリを想像してみてください。1,000個のパッチでも、1.15 GBのベースモデルに追加で1 MBです。

1人で作成、ML研究のバックグラウンドなし、M3のMacBook Air。すべてオープンです — ツールキット、パッチ、そして8つの実験はすべて、Apple SiliconのMacなら2時間以内に再現できます。

Repo: https://github.com/nikshepsvn/bankai

Paper: https://github.com/nikshepsvn/bankai/blob/master/paper/bankai.pdf

この内容に穴をあけたい人からのフィードバックがあれば嬉しいです。

submitted by /u/Turbulent-Sky5396
[link] [comments]

広告