6つの異なるモデルアーキテクチャで週末をかけて層の操作を行った。深さ50%には「危険ゾーン」があり、それぞれのモデルの性能を失ってしまう。

Reddit r/LocalLLaMA / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

6つのアーキテクチャにわたってトランスフォーマーレイヤーを複製した結果、50〜56%の深さに普遍的な「危険ゾーン」が存在し、アーキテクチャに関係なく性能が低下することが明らかになった。
最適な複製深さはモデルのタイプによって異なる。Hybrid 9B の場合、75〜84%の深さまでレイヤーを複製すると7/10のスコアで+3のデルタを示した一方、56〜65%の深さでは2/10へ低下し、中間域が危険であることを示している。
モデル間のレイヤー移植は実用的ではない。単に次元を合わせるだけでは、アーキテクチャ間で機能を保持することはできない。
この作業はMLXを用いたApple Silicon（M3 Ultra、512GB）上でローカルに実施され、トレーニングやクラウドアクセスは行われなかった。また、実用的な最小モデルは約30億パラメータであると示唆されている。

要約: 5つのモデルアーキテクチャ（Dense 32B、Hybrid 9B、MoE 30B、Dense 3B、クロスモデル移植 7B）におけるトランスフォーマー層の複製を行いました。アーキテクチャに関係なくモデルを壊す普遍的な「危険ゾーン」が深さ約50-56%に存在することを発見。最適な複製深さはタイプによって異なります。クロスモデルの層移植は硬い拒否。次元を合わせただけでは不十分です。最小実用モデルは約3B。

MLX による Apple Silicon（M3 Ultra、512GB）上のローカル実行のみ。クラウドも API もトレーニングもなし — 手術と自動ベンチマークだけ。

背景

David Noel Ng は再学習なしで能力を高めるためにトランスフォーマー層を複製する手法を公開した（元の投稿）。アイデアは、「推論」を担う層ブロックがあれば、その回路をもう一度モデルに通すことで、より考えさせる効果があるというものだ。回答する前に段落を再読するようなものだ。

機能的な回路が実際にどこに存在するのか、それがアーキテクチャ間で一般化するか、そして押し進めたときに何が壊れるのかをマッピングしたかった。

Phase 1-3: Dense 32B (Qwen2.5-Coder-32B, 64 層)

異なる深さで5つの機能回路をマッピングした: - L28-34 (44-53%) — 「構造的推論」: 違うコーディングスタイル。真の O(1) 実装、データ構造の極性を反転、アンダーフロー検出などを他が見逃す。 - L36-42 (56-65%) — 「検証回路」: 最良のテストスイートを書き出すが、補助コードにバグを導入する。ビルダーとチェッカーは文字通り別の回路だ。

結果: 10/10 対 10/10 の同点。 モデルは恩恵を受けるには強すぎた。層の複製は どのようにコードするかを変えたが、何を解けるかを変えなかった。重要なのは、すでにベンチマークで高得点を取っているモデルを改善できないということだ。

Phase 4: Hybrid 9B (Qwen3.5-9B-破壊的な改変済み、32層、リニアアテンション)

このモデルは失敗するほど弱かった（ベースライン4/10）。現状の能力の変化を実測できる。

位置	深さ	スコア	差分
L4-7	13-22%	4/10	0
L8-11	25-34%	5/10	+1
L12-15	38-47%	4/10	0
L18-21	56-65%	2/10	-2（危険ゾーン）
L24-27	75-84%	7/10	+3（WINNER）

L24-27: 能力向上 75%。 3つの新しい問題を解決（three_sum、word_break、longest_prefix）、元のものを失わずに済んだ。「もう一度考える機会」を持つという仮説を確認した。

L18-21: 倍増させると積極的に能力を破壊する。 これらの層はアテンションのルーティングであり、正確な速度で流れるべき弁だ。

Phase 5: Surgery Experiments on 9B

What if we get creative?

実験	スコア	何が起きた
Double-stack (二重に良い回路)	3/10	回路は干渉、複合にはならない
Triple-stack (3x 最良ブロック)	1/10	急崖 — Python さえほとんど生成されない
Forbidden Cut (危険ゾーンを削除して推論を強化)	0/10	全脳死

危険ゾーンは荷重を支える。 それを削除すると出力が死ぬ。複製すると推論が死ぬ。正確に1回だけ存在する必要がある。モデルは思っているほどモジュール性が高くない。

トリプル-stack の発見は重要: 「より多く考える＝より難く考える」わけではない。1回多くのパスを回すと +75%。2回多くのパスを回すとゴミ。バイナリ閾値。

Phase 6: MoE 30B (Qwen3-30B-A3B, 48 層, 256 エキスパート, top-8)

75-85% 深さのルールは MoE では間違いだった。

勝者: L18-21 は 38-44% の深さ (14/15、ベースラインの 13/15 より +1)。「推論コア」は MoE モデルの早い段階に位置しており、ルーティングゲートが専門家選択を通じて暗黙の深さを生み出す。

追加 MoE 実験:

実験	スコア	発見
1 層を複製	11/15 (-2)	役に立つには最低4層
2 層を複製	12/15 (-1)	閾値をまだ下回る
4 層を複製	14/15 (+1)	最小有効量
12 エキスパート（8 から増加）	13/15 (0)	中立
16 エキスパート	10/15 (-3)	誤ったエキスパートが信号を埋もれさせる
24 エキスパート	8/15 (-5)	壊滅的
Layer dup + wider experts	13/15 (0)	お互いを打ち消す

休止中のエキスパートには理由がある。 それらに投票させるのは、会議の全員に話させるのではなく、題材を知っている8人だけに話させるようなものだ。

一つの興味深い異常: valid_parens（括弧の照合）は、ベースラインと全てのレイヤー複製バリアントで常に失敗していた。しかし、全ての専門家幅のバリアントはそれを通過した。休止中のエキスパートにも能力は存在するのだが、トップ8のルーティングには選択されない。魅力的だが、広いルーティングは難問を破壊するため実用的ではない。

Phase 7: Minimum Viable Model Size

モデル	パラメータ	ベースライン	最良バリアント	差分
Qwen2.5-0.5B	0.5B	2/15	2/15	0
Qwen2.5-1.5B	1.5B	~4/15	~4/15	0
Qwen2.5-3B	3B	8/15	9/15	+1

3B のヘッド・ツー・ヘッド: 元の 8/15 対フランケンシュタイン 9/15。regex_match と median_sorted を獲得、group_anagrams を失う。速度ペナルティ: -7.6%（127 tok/s vs 117 tok/s）。

最小実用モデル: 約3B パラメータ。 それより小さいと、余剰の推論能力を持つ機能回路が不足します。

Phase 8: Cross-Model Layer Transplant (the big swing)

夢: Qwen2.5-Math-7B の数学推論層を Qwen2.5-7B-Instruct に接ぎ木する。両モデルは隠れ次元が全く同一（H=3584、ヘッド数=28、kv_heads=4、 intermediate=18944）で、寸法の完全な互換性を持つ。

バリアント	コード（全15のうち）	数学（全5のうち）	結論
ホスト（General-7B）	14	4	ベースライン
ドナー（Math-7B）	3	4	ベースライン
L8-11 replace (29-39%)	3	1	壊滅的
L8-11 insert (29-39%)	7	4	半分のコーディング喪失
L14-17 replace (50-61%)	0	0	ロボトミー
L14-17 insert (50-61%)	0	0	ロボトミー
L20-23 replace (71-82%)	0	0	ロボトミー
L20-23 insert (71-82%)	0	0	ロボトミー

クロスモデル移植は不可。 6件中6件のバリアントはいずれもモデルを破壊するか著しく劣化させた。唯一の生存者（L8-11 挿入）は、ホストがそれらを回避するように早期に外部レイヤーを追加しただけで、数学的能力は取り込まれなかった。

重要な洞察: テンソル次元を合わせることは必要だが十分ではない。層は訓練中にモデル固有の内部表現を発達させる。モデル間で層を交換することは、同じ言語・同じページサイズでも別の本から段落を移植するようなもので、文脈が全く異なる。

これは frankenmerge が、モデルの 自分自身の 回路を複製することによって機能することを示している。自分のロジックを二度考えるようにさせるだけで、他モデルの能力を取り込むわけではない。

普遍的な危険ゾーン

テストした全5つのアーキテクチャにわたり再現されました:

アーキテクチャ	層数	危険ゾーン	深さ%
Dense 32B	64	L36-42	56-65%
Hybrid 9B	32	L18-21	56-65%
MoE 30B	48	L24-27	50-56%
Dense 3B	36	L18-20	50-56%
Transplant 7B	28	L14-17	50-61%

These layers are the model's attention routing infrastructure. They’re not a "circuit" you can duplicate or swap — they’re the wiring between circuits. Mess with the wiring, everything downstream breaks.

アーキテクチャ別の最適な複製深さ

タイプ	最適深さ	推論
Dense (32B)	44-53%	中間スタックの構造推論
Hybrid linear (9B)	75-84%	推論は線形アテンションの後半に位置する
MoE (30B)	38-44%	エキスパート・ルーティングは推論をより早い段階へ押し上げる
Dense (3B)	28-36%	小型モデルは早く推論を行う

ローカルビルダー向け実践ガイド

最初にモデルをベンチマークしてください。 すでにすべてをクリアしている場合、frankenmergeは役に立ちません（フェーズ3）。
Denseは約75%の深さで4層から、MoEは約40%から始めます。
1ブロック、1コピー。 さらに多くを試みると、状況は悪化しました。
3B未満のモデルは対象外です。 回路深さが不足しています。
もしバリアントが構文エラーや意味不明な出力を出す、危険領域に入っています。複製ポイントを移動してください。
モデル間の移植は行わない。 複製のみ。同じモデル、同じレイヤー、追加のコピーは1つのみ。

方法論

すべてのベンチマーク: LeetCode風の問題15問、3つの階層（Standard/Medium/Hard）。モデルが生成したコードを抽出し、非公開のテストケースに対して実行。 PASS = コードが実際に動作し、正しい出力を生成します。 LLMをジャッジとして使用せず、雰囲気ベースの採点もなし。

複製した層を4つ追加するごとに約8%の速度ペナルティ（64層モデルで追加7層は-9%、36層で追加4層は-7.6%）。

完全なラボノートとすべてのスクリプトは要望に応じて提供します。

今後の予定

ブロックサイズのスイープ: 4層が最適なのか、それとも動作する最初のサイズなのか？
複製された層にLoRAを適用：微調整で追加パスを鋭くできるか？
分散分析のために（最低3回）リピート実行
Llama、Mistral、Phiアーキテクチャでのテスト

Drew Smith — Rocktalk Research 岩が叫ぶのを許す

submitted by /u/Low_Ground5234
[リンク] [コメント]

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

6つの異なるモデルアーキテクチャで週末をかけて層の操作を行った。深さ50%には「危険ゾーン」があり、それぞれのモデルの性能を失ってしまう。

要点

背景

Phase 1-3: Dense 32B (Qwen2.5-Coder-32B, 64 層)

Phase 4: Hybrid 9B (Qwen3.5-9B-破壊的な改変済み、32層、リニアアテンション)

Phase 5: Surgery Experiments on 9B

Phase 6: MoE 30B (Qwen3-30B-A3B, 48 層, 256 エキスパート, top-8)

Phase 7: Minimum Viable Model Size

Phase 8: Cross-Model Layer Transplant (the big swing)

普遍的な危険ゾーン

アーキテクチャ別の最適な複製深さ

ローカルビルダー向け実践ガイド

方法論

今後の予定

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer