AI Navigate

6つの異なるモデルアーキテクチャで週末をかけて層の操作を行った。深さ50%には「危険ゾーン」があり、それぞれのモデルの性能を失ってしまう。

Reddit r/LocalLLaMA / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 6つのアーキテクチャにわたってトランスフォーマーレイヤーを複製した結果、50〜56%の深さに普遍的な「危険ゾーン」が存在し、アーキテクチャに関係なく性能が低下することが明らかになった。
  • 最適な複製深さはモデルのタイプによって異なる。Hybrid 9B の場合、75〜84%の深さまでレイヤーを複製すると7/10のスコアで+3のデルタを示した一方、56〜65%の深さでは2/10へ低下し、中間域が危険であることを示している。
  • モデル間のレイヤー移植は実用的ではない。単に次元を合わせるだけでは、アーキテクチャ間で機能を保持することはできない。
  • この作業はMLXを用いたApple Silicon(M3 Ultra、512GB)上でローカルに実施され、トレーニングやクラウドアクセスは行われなかった。また、実用的な最小モデルは約30億パラメータであると示唆されている。

要約: 5つのモデルアーキテクチャ(Dense 32B、Hybrid 9B、MoE 30B、Dense 3B、クロスモデル移植 7B)におけるトランスフォーマー層の複製を行いました。アーキテクチャに関係なくモデルを壊す普遍的な「危険ゾーン」が深さ約50-56%に存在することを発見。最適な複製深さはタイプによって異なります。クロスモデルの層移植は硬い拒否。次元を合わせただけでは不十分です。最小実用モデルは約3B。

MLX による Apple Silicon(M3 Ultra、512GB)上のローカル実行のみ。クラウドも API もトレーニングもなし — 手術と自動ベンチマークだけ。


背景

David Noel Ng は再学習なしで能力を高めるためにトランスフォーマー層を複製する手法を公開した(元の投稿)。アイデアは、「推論」を担う層ブロックがあれば、その回路をもう一度モデルに通すことで、より考えさせる効果があるというものだ。回答する前に段落を再読するようなものだ。

機能的な回路が実際にどこに存在するのか、それがアーキテクチャ間で一般化するか、そして押し進めたときに何が壊れるのかをマッピングしたかった。

Phase 1-3: Dense 32B (Qwen2.5-Coder-32B, 64 層)

異なる深さで5つの機能回路をマッピングした: - L28-34 (44-53%) — 「構造的推論」: 違うコーディングスタイル。真の O(1) 実装、データ構造の極性を反転、アンダーフロー検出などを他が見逃す。 - L36-42 (56-65%) — 「検証回路」: 最良のテストスイートを書き出すが、補助コードにバグを導入する。ビルダーとチェッカーは文字通り別の回路だ。

結果: 10/10 対 10/10 の同点。 モデルは恩恵を受けるには強すぎた。層の複製は どのようにコードするかを変えたが、何を解けるかを変えなかった。重要なのは、すでにベンチマークで高得点を取っているモデルを改善できないということだ。

Phase 4: Hybrid 9B (Qwen3.5-9B-破壊的な改変済み、32層、リニアアテンション)

このモデルは失敗するほど弱かった(ベースライン4/10)。現状の能力の変化を実測できる。

位置 深さ スコア 差分
L4-7 13-22% 4/10 0
L8-11 25-34% 5/10 +1
L12-15 38-47% 4/10 0
L18-21 56-65% 2/10 -2(危険ゾーン)
L24-27 75-84% 7/10 +3(WINNER)

L24-27: 能力向上 75%。 3つの新しい問題を解決(three_sum、word_break、longest_prefix)、元のものを失わずに済んだ。「もう一度考える機会」を持つという仮説を確認した。

L18-21: 倍増させると積極的に能力を破壊する。 これらの層はアテンションのルーティングであり、正確な速度で流れるべき弁だ。

Phase 5: Surgery Experiments on 9B

What if we get creative?

実験 スコア 何が起きた
Double-stack (二重に良い回路) 3/10 回路は 干渉、複合にはならない
Triple-stack (3x 最良ブロック) 1/10 急崖 — Python さえほとんど生成されない
Forbidden Cut (危険ゾーンを削除して推論を強化) 0/10 全脳死

危険ゾーンは荷重を支える。 それを削除すると出力が死ぬ。 複製すると推論が死ぬ。 正確に1回だけ存在する必要がある。 モデルは思っているほどモジュール性が高くない。

トリプル-stack の発見は重要: 「より多く考える=より難く考える」わけではない。1回多くのパスを回すと +75%。2回多くのパスを回すとゴミ。 バイナリ閾値。

Phase 6: MoE 30B (Qwen3-30B-A3B, 48 層, 256 エキスパート, top-8)

75-85% 深さのルールは MoE では間違いだった。

勝者: L18-21 は 38-44% の深さ (14/15、ベースラインの 13/15 より +1)。 「推論コア」は MoE モデルの早い段階に位置しており、ルーティングゲートが専門家選択を通じて暗黙の深さを生み出す。

追加 MoE 実験:

実験 スコア 発見
1 層を複製 11/15 (-2) 役に立つには最低4層
2 層を複製 12/15 (-1) 閾値をまだ下回る
4 層を複製 14/15 (+1) 最小有効量
12 エキスパート(8 から増加) 13/15 (0) 中立
16 エキスパート 10/15 (-3) 誤ったエキスパートが信号を埋もれさせる
24 エキスパート 8/15 (-5) 壊滅的
Layer dup + wider experts 13/15 (0) お互いを打ち消す

休止中のエキスパートには理由がある。 それらに投票させるのは、会議の全員に話させるのではなく、題材を知っている8人だけに話させるようなものだ。

一つの興味深い異常: valid_parens(括弧の照合)は、ベースラインと全てのレイヤー複製バリアントで常に失敗していた。しかし、全ての専門家幅のバリアントはそれを通過した。休止中のエキスパートにも能力は存在するのだが、トップ8のルーティングには選択されない。魅力的だが、広いルーティングは難問を破壊するため実用的ではない。

Phase 7: Minimum Viable Model Size

モデル パラメータ ベースライン 最良バリアント 差分
Qwen2.5-0.5B 0.5B 2/15 2/15 0
Qwen2.5-1.5B 1.5B ~4/15 ~4/15 0
Qwen2.5-3B 3B 8/15 9/15 +1

3B のヘッド・ツー・ヘッド: 元の 8/15 対 フランケンシュタイン 9/15。regex_match と median_sorted を獲得、group_anagrams を失う。速度ペナルティ: -7.6%(127 tok/s vs 117 tok/s)。

最小実用モデル: 約3B パラメータ。 それより小さいと、余剰の推論能力を持つ機能回路が不足します。

Phase 8: Cross-Model Layer Transplant (the big swing)

夢: Qwen2.5-Math-7B の数学推論層を Qwen2.5-7B-Instruct に接ぎ木する。両モデルは隠れ次元が全く同一(H=3584、ヘッド数=28、kv_heads=4、 intermediate=18944)で、寸法の完全な互換性を持つ。

バリアント コード(全15のうち) 数学(全5のうち) 結論
ホスト(General-7B) 14 4 ベースライン
ドナー(Math-7B) 3 4 ベースライン
L8-11 replace (29-39%) 3 1 壊滅的
L8-11 insert (29-39%) 7 4 半分のコーディング喪失
L14-17 replace (50-61%) 0 0 ロボトミー
L14-17 insert (50-61%) 0 0 ロボトミー
L20-23 replace (71-82%) 0 0 ロボトミー
L20-23 insert (71-82%) 0 0 ロボトミー

クロスモデル移植は不可。 6件中6件のバリアントはいずれもモデルを破壊するか著しく劣化させた。唯一の生存者(L8-11 挿入)は、ホストがそれらを回避するように早期に外部レイヤーを追加しただけで、数学的能力は取り込まれなかった。

重要な洞察: テンソル次元を合わせることは必要だが十分ではない。層は訓練中にモデル固有の内部表現を発達させる。モデル間で層を交換することは、同じ言語・同じページサイズでも別の本から段落を移植するようなもので、文脈が全く異なる。

これは frankenmerge が、モデルの 自分自身の 回路を複製することによって機能することを示している。自分のロジックを二度考えるようにさせるだけで、他モデルの能力を取り込むわけではない。

普遍的な危険ゾーン

テストした全5つのアーキテクチャにわたり再現されました:

アーキテクチャ 層数 危険ゾーン 深さ%
Dense 32B 64 L36-42 56-65%
Hybrid 9B 32 L18-21 56-65%
MoE 30B 48 L24-27 50-56%
Dense 3B 36 L18-20 50-56%
Transplant 7B 28 L14-17 50-61%

These layers are the model's attention routing infrastructure. They’re not a "circuit" you can duplicate or swap — they’re the wiring between circuits. Mess with the wiring, everything downstream breaks.

アーキテクチャ別の最適な複製深さ

タイプ 最適深さ 推論
Dense (32B) 44-53% 中間スタックの構造推論
Hybrid linear (9B) 75-84% 推論は線形アテンションの後半に位置する
MoE (30B) 38-44% エキスパート・ルーティングは推論をより早い段階へ押し上げる
Dense (3B) 28-36% 小型モデルは早く推論を行う

ローカルビルダー向け実践ガイド

  1. 最初にモデルをベンチマークしてください。 すでにすべてをクリアしている場合、frankenmergeは役に立ちません(フェーズ3)。
  2. Denseは約75%の深さで4層から、MoEは約40%から始めます。
  3. 1ブロック、1コピー。 さらに多くを試みると、状況は悪化しました。
  4. 3B未満のモデルは対象外です。 回路深さが不足しています。
  5. もしバリアントが構文エラーや意味不明な出力を出す、危険領域に入っています。複製ポイントを移動してください。
  6. モデル間の移植は行わない。 複製のみ。 同じモデル、同じレイヤー、追加のコピーは1つのみ。

方法論

すべてのベンチマーク: LeetCode風の問題15問、3つの階層(Standard/Medium/Hard)。 モデルが生成したコードを抽出し、非公開のテストケースに対して実行。 PASS = コードが実際に動作し、正しい出力を生成します。 LLMをジャッジとして使用せず、雰囲気ベースの採点もなし。

複製した層を4つ追加するごとに約8%の速度ペナルティ(64層モデルで追加7層は-9%、36層で追加4層は-7.6%)。

完全なラボノートとすべてのスクリプトは要望に応じて提供します。

今後の予定

  • ブロックサイズのスイープ: 4層が最適なのか、それとも動作する最初のサイズなのか?
  • 複製された層にLoRAを適用:微調整で追加パスを鋭くできるか?
  • 分散分析のために(最低3回)リピート実行
  • Llama、Mistral、Phiアーキテクチャでのテスト

Drew Smith — Rocktalk Research 岩が叫ぶのを許す

submitted by /u/Low_Ground5234
[リンク] [コメント]