Show HN: 24B LLM の 3 層を複製、論理推論 0.22→0.76。訓練なし

Hacker News / 2026/3/19

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

著者は David Ng の RYS メソッドを消費者向け GPU で再現し、3〜4 層の連続ブロックを複製すると、重みや訓練を変更することなく、モデルが推論パイプラインを2回実行する「推論回路」を離散的に作り出すことを発見した。
24B モデルでは、特定の層を複製することで、ベンチマークが著しく改善された（BBH Logical Deduction が 0.22 から 0.76、GSM8K が 0.48 から 0.64、MBPP が 0.72 から 0.78）。劣化は観察されなかった。
異なる複製パターンは異なる認知モードを生み出す（2回パスは数学を強化し、3回パスは感情的推論を強化し、交互の二重化は数学のスペシャリストモードを生み出す）。カットを1層ずらすと、効果が打ち消されたり反転したりすることがある。
この投稿は、GGUF モデル内の回路を特定するツールと、任意の層ルーティングを適用するためのツールを提供しており、全体のスイープ／検証はおよそ1晩で完了した。

David NgのRYS法を再現しました（https://dnhkng.github.io/posts/rys/）を一般消費者向けAMD GPU（RX 7900 XT + RX 6950 XT）で実行し、予想外のことを発見しました。

Transformerは離散的な「推論回路」を持つように見えます――3〜4層の連結ブロックが不可分な認知単位として機能します。右側のブロックを複製すると、モデルは推論パイプラインを2回実行します。ウェイトは変わりません。トレーニングもありません。モデルはただ長く考えるだけです。

標準ベンチマーク（lm-evaluation-harness、n=50）での結果：

Devstral-24B、12-14層を1回複製： - BBH Logical Deduction: 0.22 → 0.76 - GSM8K (strict): 0.48 → 0.64 - MBPP (code gen): 0.72 → 0.78 - Nothing degraded

Qwen2.5-Coder-32B、7-9層を1回複製： - Reasoning probe: 76% → 94%

奇妙な点：異なる複製パターンは、同じウェイトから異なる認知“モード”を生み出します。ダブルパスは数学を強化します。トリプルパスは感情的推論を強化します。交互の倍増（13,13,14,14,15,15,16）は純粋な数学スペシャリストを作り出します。同じモデル、同じVRAM、異なるルーティング。

回路境界は鋭く、1層ずらすと効果は消失するか反転します。小型モデル（24B）は回路がよりタイトで3層だが、大型モデルではNgが72Bで7層を見つけたと報告しています。

任意のGGUFモデルで回路を見つけ、任意の層ルーティングを適用するツールはリポジトリにあります。全体の流れ—スイープ、発見、検証—は1晩で完了しました。

ご質問があれば喜んでお答えします。

ポイント: 112

コメント数: 37

Dev.to

Dev.to

Dev.to

Dev.to

Dev.to