David NgのRYS法を再現しました(https://dnhkng.github.io/posts/rys/)を一般消費者向けAMD GPU(RX 7900 XT + RX 6950 XT)で実行し、予想外のことを発見しました。
Transformerは離散的な「推論回路」を持つように見えます――3〜4層の連結ブロックが不可分な認知単位として機能します。右側のブロックを複製すると、モデルは推論パイプラインを2回実行します。ウェイトは変わりません。トレーニングもありません。モデルはただ長く考えるだけです。
標準ベンチマーク(lm-evaluation-harness、n=50)での結果:
Devstral-24B、12-14層を1回複製: - BBH Logical Deduction: 0.22 → 0.76 - GSM8K (strict): 0.48 → 0.64 - MBPP (code gen): 0.72 → 0.78 - Nothing degraded
Qwen2.5-Coder-32B、7-9層を1回複製: - Reasoning probe: 76% → 94%
奇妙な点:異なる複製パターンは、同じウェイトから異なる認知“モード”を生み出します。ダブルパスは数学を強化します。トリプルパスは感情的推論を強化します。交互の倍増(13,13,14,14,15,15,16)は純粋な数学スペシャリストを作り出します。同じモデル、同じVRAM、異なるルーティング。
回路境界は鋭く、1層ずらすと効果は消失するか反転します。小型モデル(24B)は回路がよりタイトで3層だが、大型モデルではNgが72Bで7層を見つけたと報告しています。
任意のGGUFモデルで回路を見つけ、任意の層ルーティングを適用するツールはリポジトリにあります。全体の流れ—スイープ、発見、検証—は1晩で完了しました。
ご質問があれば喜んでお答えします。
コメントのURL: https://news.ycombinator.com/item?id=47431671
ポイント: 112
コメント数: 37