要約: 5つのモデルアーキテクチャ(Dense 32B、Hybrid 9B、MoE 30B、Dense 3B、クロスモデル移植 7B)におけるトランスフォーマー層の複製を行いました。アーキテクチャに関係なくモデルを壊す普遍的な「危険ゾーン」が深さ約50-56%に存在することを発見。最適な複製深さはタイプによって異なります。クロスモデルの層移植は硬い拒否。次元を合わせただけでは不十分です。最小実用モデルは約3B。
MLX による Apple Silicon(M3 Ultra、512GB)上のローカル実行のみ。クラウドも API もトレーニングもなし — 手術と自動ベンチマークだけ。
背景
David Noel Ng は再学習なしで能力を高めるためにトランスフォーマー層を複製する手法を公開した(元の投稿)。アイデアは、「推論」を担う層ブロックがあれば、その回路をもう一度モデルに通すことで、より考えさせる効果があるというものだ。回答する前に段落を再読するようなものだ。
機能的な回路が実際にどこに存在するのか、それがアーキテクチャ間で一般化するか、そして押し進めたときに何が壊れるのかをマッピングしたかった。
Phase 1-3: Dense 32B (Qwen2.5-Coder-32B, 64 層)
異なる深さで5つの機能回路をマッピングした: - L28-34 (44-53%) — 「構造的推論」: 違うコーディングスタイル。真の O(1) 実装、データ構造の極性を反転、アンダーフロー検出などを他が見逃す。 - L36-42 (56-65%) — 「検証回路」: 最良のテストスイートを書き出すが、補助コードにバグを導入する。ビルダーとチェッカーは文字通り別の回路だ。
結果: 10/10 対 10/10 の同点。 モデルは恩恵を受けるには強すぎた。層の複製は どのようにコードするかを変えたが、何を解けるかを変えなかった。重要なのは、すでにベンチマークで高得点を取っているモデルを改善できないということだ。
Phase 4: Hybrid 9B (Qwen3.5-9B-破壊的な改変済み、32層、リニアアテンション)
このモデルは失敗するほど弱かった(ベースライン4/10)。現状の能力の変化を実測できる。
| 位置 | 深さ | スコア | 差分 |
|---|---|---|---|
| L4-7 | 13-22% | 4/10 | 0 |
| L8-11 | 25-34% | 5/10 | +1 |
| L12-15 | 38-47% | 4/10 | 0 |
| L18-21 | 56-65% | 2/10 | -2(危険ゾーン) |
| L24-27 | 75-84% | 7/10 | +3(WINNER) |
L24-27: 能力向上 75%。 3つの新しい問題を解決(three_sum、word_break、longest_prefix)、元のものを失わずに済んだ。「もう一度考える機会」を持つという仮説を確認した。
L18-21: 倍増させると積極的に能力を破壊する。 これらの層はアテンションのルーティングであり、正確な速度で流れるべき弁だ。
Phase 5: Surgery Experiments on 9B
What if we get creative?
| 実験 | スコア | 何が起きた |
|---|---|---|
| Double-stack (二重に良い回路) | 3/10 | 回路は 干渉、複合にはならない |
| Triple-stack (3x 最良ブロック) | 1/10 | 急崖 — Python さえほとんど生成されない |
| Forbidden Cut (危険ゾーンを削除して推論を強化) | 0/10 | 全脳死 |
危険ゾーンは荷重を支える。 それを削除すると出力が死ぬ。 複製すると推論が死ぬ。 正確に1回だけ存在する必要がある。 モデルは思っているほどモジュール性が高くない。
トリプル-stack の発見は重要: 「より多く考える=より難く考える」わけではない。1回多くのパスを回すと +75%。2回多くのパスを回すとゴミ。 バイナリ閾値。
Phase 6: MoE 30B (Qwen3-30B-A3B, 48 層, 256 エキスパート, top-8)
75-85% 深さのルールは MoE では間違いだった。
勝者: L18-21 は 38-44% の深さ (14/15、ベースラインの 13/15 より +1)。 「推論コア」は MoE モデルの早い段階に位置しており、ルーティングゲートが専門家選択を通じて暗黙の深さを生み出す。
追加 MoE 実験:
| 実験 | スコア | 発見 |
|---|---|---|
| 1 層を複製 | 11/15 (-2) | 役に立つには最低4層 |
| 2 層を複製 | 12/15 (-1) | 閾値をまだ下回る |
| 4 層を複製 | 14/15 (+1) | 最小有効量 |
| 12 エキスパート(8 から増加) | 13/15 (0) | 中立 |
| 16 エキスパート | 10/15 (-3) | 誤ったエキスパートが信号を埋もれさせる |
| 24 エキスパート | 8/15 (-5) | 壊滅的 |
| Layer dup + wider experts | 13/15 (0) | お互いを打ち消す |
休止中のエキスパートには理由がある。 それらに投票させるのは、会議の全員に話させるのではなく、題材を知っている8人だけに話させるようなものだ。
一つの興味深い異常: valid_parens(括弧の照合)は、ベースラインと全てのレイヤー複製バリアントで常に失敗していた。しかし、全ての専門家幅のバリアントはそれを通過した。休止中のエキスパートにも能力は存在するのだが、トップ8のルーティングには選択されない。魅力的だが、広いルーティングは難問を破壊するため実用的ではない。
Phase 7: Minimum Viable Model Size
| モデル | パラメータ | ベースライン | 最良バリアント | 差分 |
|---|---|---|---|---|
| Qwen2.5-0.5B | 0.5B | 2/15 | 2/15 | 0 |
| Qwen2.5-1.5B | 1.5B | ~4/15 | ~4/15 | 0 |
| Qwen2.5-3B | 3B | 8/15 | 9/15 | +1 |
3B のヘッド・ツー・ヘッド: 元の 8/15 対 フランケンシュタイン 9/15。regex_match と median_sorted を獲得、group_anagrams を失う。速度ペナルティ: -7.6%(127 tok/s vs 117 tok/s)。
最小実用モデル: 約3B パラメータ。 それより小さいと、余剰の推論能力を持つ機能回路が不足します。
Phase 8: Cross-Model Layer Transplant (the big swing)
夢: Qwen2.5-Math-7B の数学推論層を Qwen2.5-7B-Instruct に接ぎ木する。両モデルは隠れ次元が全く同一(H=3584、ヘッド数=28、kv_heads=4、 intermediate=18944)で、寸法の完全な互換性を持つ。
| バリアント | コード(全15のうち) | 数学(全5のうち) | 結論 |
|---|---|---|---|
| ホスト(General-7B) | 14 | 4 | ベースライン |
| ドナー(Math-7B) | 3 | 4 | ベースライン |
| L8-11 replace (29-39%) | 3 | 1 | 壊滅的 |
| L8-11 insert (29-39%) | 7 | 4 | 半分のコーディング喪失 |
| L14-17 replace (50-61%) | 0 | 0 | ロボトミー |
| L14-17 insert (50-61%) | 0 | 0 | ロボトミー |
| L20-23 replace (71-82%) | 0 | 0 | ロボトミー |
| L20-23 insert (71-82%) | 0 | 0 | ロボトミー |
クロスモデル移植は不可。 6件中6件のバリアントはいずれもモデルを破壊するか著しく劣化させた。唯一の生存者(L8-11 挿入)は、ホストがそれらを回避するように早期に外部レイヤーを追加しただけで、数学的能力は取り込まれなかった。
重要な洞察: テンソル次元を合わせることは必要だが十分ではない。層は訓練中にモデル固有の内部表現を発達させる。モデル間で層を交換することは、同じ言語・同じページサイズでも別の本から段落を移植するようなもので、文脈が全く異なる。
これは frankenmerge が、モデルの 自分自身の 回路を複製することによって機能することを示している。自分のロジックを二度考えるようにさせるだけで、他モデルの能力を取り込むわけではない。
普遍的な危険ゾーン
テストした全5つのアーキテクチャにわたり再現されました:
| アーキテクチャ | 層数 | 危険ゾーン | 深さ% |
|---|---|---|---|
| Dense 32B | 64 | L36-42 | 56-65% |
| Hybrid 9B | 32 | L18-21 | 56-65% |
| MoE 30B | 48 | L24-27 | 50-56% |
| Dense 3B | 36 | L18-20 | 50-56% |
| Transplant 7B | 28 | L14-17 | 50-61% |
These layers are the model's attention routing infrastructure. They’re not a "circuit" you can duplicate or swap — they’re the wiring between circuits. Mess with the wiring, everything downstream breaks.
アーキテクチャ別の最適な複製深さ
| タイプ | 最適深さ | 推論 |
|---|---|---|
| Dense (32B) | 44-53% | 中間スタックの構造推論 |
| Hybrid linear (9B) | 75-84% | 推論は線形アテンションの後半に位置する |
| MoE (30B) | 38-44% | エキスパート・ルーティングは推論をより早い段階へ押し上げる |
| Dense (3B) | 28-36% | 小型モデルは早く推論を行う |
ローカルビルダー向け実践ガイド
- 最初にモデルをベンチマークしてください。 すでにすべてをクリアしている場合、frankenmergeは役に立ちません(フェーズ3)。
- Denseは約75%の深さで4層から、MoEは約40%から始めます。
- 1ブロック、1コピー。 さらに多くを試みると、状況は悪化しました。
- 3B未満のモデルは対象外です。 回路深さが不足しています。
- もしバリアントが構文エラーや意味不明な出力を出す、危険領域に入っています。複製ポイントを移動してください。
- モデル間の移植は行わない。 複製のみ。 同じモデル、同じレイヤー、追加のコピーは1つのみ。
方法論
すべてのベンチマーク: LeetCode風の問題15問、3つの階層(Standard/Medium/Hard)。 モデルが生成したコードを抽出し、非公開のテストケースに対して実行。 PASS = コードが実際に動作し、正しい出力を生成します。 LLMをジャッジとして使用せず、雰囲気ベースの採点もなし。
複製した層を4つ追加するごとに約8%の速度ペナルティ(64層モデルで追加7層は-9%、36層で追加4層は-7.6%)。
完全なラボノートとすべてのスクリプトは要望に応じて提供します。
今後の予定
- ブロックサイズのスイープ: 4層が最適なのか、それとも動作する最初のサイズなのか?
- 複製された層にLoRAを適用:微調整で追加パスを鋭くできるか?
- 分散分析のために(最低3回)リピート実行
- Llama、Mistral、Phiアーキテクチャでのテスト
Drew Smith — Rocktalk Research 岩が叫ぶのを許す
submitted by /u/Low_Ground5234[リンク] [コメント]