AI Navigate

Show HN: 24B LLM の 3 層を複製、論理推論 0.22→0.76。訓練なし

Hacker News / 2026/3/19

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 著者は David Ng の RYS メソッドを消費者向け GPU で再現し、3〜4 層の連続ブロックを複製すると、重みや訓練を変更することなく、モデルが推論パイプラインを2回実行する「推論回路」を離散的に作り出すことを発見した。
  • 24B モデルでは、特定の層を複製することで、ベンチマークが著しく改善された(BBH Logical Deduction が 0.22 から 0.76、GSM8K が 0.48 から 0.64、MBPP が 0.72 から 0.78)。劣化は観察されなかった。
  • 異なる複製パターンは異なる認知モードを生み出す(2回パスは数学を強化し、3回パスは感情的推論を強化し、交互の二重化は数学のスペシャリストモードを生み出す)。カットを1層ずらすと、効果が打ち消されたり反転したりすることがある。
  • この投稿は、GGUF モデル内の回路を特定するツールと、任意の層ルーティングを適用するためのツールを提供しており、全体のスイープ/検証はおよそ1晩で完了した。

David NgのRYS法を再現しました(https://dnhkng.github.io/posts/rys/)を一般消費者向けAMD GPU(RX 7900 XT + RX 6950 XT)で実行し、予想外のことを発見しました。

Transformerは離散的な「推論回路」を持つように見えます――3〜4層の連結ブロックが不可分な認知単位として機能します。右側のブロックを複製すると、モデルは推論パイプラインを2回実行します。ウェイトは変わりません。トレーニングもありません。モデルはただ長く考えるだけです。

標準ベンチマーク(lm-evaluation-harness、n=50)での結果:

Devstral-24B、12-14層を1回複製: - BBH Logical Deduction: 0.22 → 0.76 - GSM8K (strict): 0.48 → 0.64 - MBPP (code gen): 0.72 → 0.78 - Nothing degraded

Qwen2.5-Coder-32B、7-9層を1回複製: - Reasoning probe: 76% → 94%

奇妙な点:異なる複製パターンは、同じウェイトから異なる認知“モード”を生み出します。ダブルパスは数学を強化します。トリプルパスは感情的推論を強化します。交互の倍増(13,13,14,14,15,15,16)は純粋な数学スペシャリストを作り出します。同じモデル、同じVRAM、異なるルーティング。

回路境界は鋭く、1層ずらすと効果は消失するか反転します。小型モデル(24B)は回路がよりタイトで3層だが、大型モデルではNgが72Bで7層を見つけたと報告しています。

任意のGGUFモデルで回路を見つけ、任意の層ルーティングを適用するツールはリポジトリにあります。全体の流れ—スイープ、発見、検証—は1晩で完了しました。

ご質問があれば喜んでお答えします。


コメントのURL: https://news.ycombinator.com/item?id=47431671

ポイント: 112

コメント数: 37