広告

Claude Codeのリークされたアーキテクチャを使って、9Bモデルをプロダクション向けエージェントへ変える方法

Dev.to / 2026/4/3

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • AnthropicによるClaude Code TypeScriptソースの偶発的な公開(npmパッケージ内に512,000行)を、少量の9Bモデルから確実なプロダクション仕様のエージェントを構築するためのアーキテクチャ設計図として活用した。
  • 構造化プロンプト、MicroCompact圧縮、ハードカットオフ、ツールの遅延ロードなどの13の具体的最適化を適用したことで、ツール呼び出しは頻繁な失敗から18件のテストで100%成功へと改善され、トークン効率も大幅に向上した。
  • そのチームは、アーキテクチャや出力/契約(contracts)が、生のモデル性能より重要になり得ると報告している。最適化後、彼らの9B構成はツール利用の挙動において「より高速な」Gemma 4 E4Bを上回り、後者は空の出力でのツール呼び出しがゼロになった。
  • この記事は、9章・約42,000語の手順ガイドとして、一般向けGPUでのハードウェア構成、モデル間の比較、A/Bの最適化結果、30日間のデプロイロードマップを含み、バイリンガルの書籍として提供している。

Claude Codeの漏えいアーキテクチャを使って、9Bモデルをプロダクションエージェントへ変えた方法

2026年3月31日、Anthropicは誤って、Claude CodeのTypeScriptソースコード512,000行をnpmパッケージとして出荷してしまいました。多くの人がそれをニュースとして扱う一方で、私たちはそれを設計図として捉えました。

実験

その漏えいに隠されていたアーキテクチャ上の原則――構造化プロンプト、MicroCompact圧縮、ハードな打ち切り、ツールの遅延ロード――を、家庭用GPU(RTX 5070 Ti、VRAM 16GB)上で動作する小型の9Bモデル(qwen3.5:9b)に適用しました。

結果は予想外でした:

指標 最適化前 13回の最適化後
ツール呼び出し ランダムな失敗 100%成功(18テスト)
出力品質 4件の問題が見つかる 25+ 件の構造化された発見
トークン効率 応答あたり1024以上 131トークン
マルチステップタスク 探索に行き詰まる 確実な6ステップ実行
コスト $0 API + $0 ハードウェア それでも$0

重要な洞察

生のモデル能力 ≠ エージェント能力。

さらに、Googleの新作Gemma 4 E4B(本日リリース)と、XiaomiのMiMo-7Bもテストしました。生のベンチマークではGemma 4が勝っていました――より速い速度(144 tok/s vs 106)、ツール選択精度の向上(5/5 vs 3/5)です。

しかし、私たちの13個の最適化を適用した後は? 9Bモデルが結果を逆転させました:

  • qwen3.5: ツール呼び出し5回、1954語の診断レポート
  • Gemma 4: ツール呼び出し0回、空の出力

アーキテクチャの規律に従うモデルは、生の知能で勝るモデルを上回る。

この本に書かれていること

すべてを書き下ろしました――9章、約42,000語:

  1. 漏えいされた設計図と、その理由(アーキテクチャ > パラメータ)
  2. 事前確認(プリフライト)の環境チェック付きハードウェア構成
  3. ファミリーをまたいだモデル比較(qwen3.5 vs Gemma 4 vs MiMo)
  4. 9Bモデルを制御するための出力コントラクト
  5. A/Bデータ付きの全13個の最適化レシピ
  6. どの工場エージェントをローカルにできるか(17のうち10)
  7. Opusを限界まで押し上げたときに何が起きるか
  8. エージェント間の通信プロトコル
  9. 30日間のデプロイ計画ロードマップ

バイリンガル版(繁體中文 + English)、EPUB + PDF。

こちらから入手

16GBのGPUが埃をかぶっているなら、この本が「ゼロコストのAIエージェント工場」に変える方法を教えてくれます。

ONE WALL AI Publishing で制作――17のAIエージェントにより駆動される、自動化された電子書籍工場。

返却形式: {"translated": "翻訳されたHTML"}

広告