広告

Claude Code CLIをローカルのllama.cppサーバーに接続する方法

Reddit r/LocalLLaMA / 2026/3/31

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • このガイドでは、.bashrc/.zshrcなどのシェル設定で、ANTHROPIC_BASE_URL のような環境変数を設定することで、ローカルで起動した llama.cpp サーバーを Claude Code CLI に向ける方法を示します。
  • ベースURLを設定した後、特定のモデル名引数(例:Qwen3.5-35B-Thinking)を指定して Claude Code を実行するためのコマンド例が提示されます。
  • VS Code ユーザー向けに、settings.json で Claude Code 拡張の環境変数を設定し、拡張がローカルサーバーへリクエストをルーティングできるようにする手順が説明されています。
  • 記事では、モデル名は llama-server.ini で設定されたものと完全に一致している必要があること、またローカルサーバーのセットアップでは、事前に構成されたモデル一覧を通じて動的なモデル切り替えをサポートできることが述べられます。
  • トラブルシューティングとして、ローカルCLIはコンテキスト長の影響で性能が低下する可能性があるため、Haiku のようなコンテキストの短いモデルの利用を検討し、CLAUDE_CODE_DISABLE_1M_CONTEXT や CLAUDE_CODE_MAX_OUTPUT_TOKENS といった追加の Claude Code 環境変数を設定するのがよいとしています。

Claude Code CLI をローカルの llama.cpp サーバーに接続する方法

ローカルの llama.cpp 設定で Claude Code を動かそうとしている人がかなり多かったので、私の環境でうまくいった簡単な手順を紹介します。


1. CLI(ターミナル)

これを .bashrc(または .zshrc)に追加します:

bash export ANTHROPIC_AUTH_TOKEN="not_set" export ANTHROPIC_API_KEY="not_set_either!" export ANTHROPIC_BASE_URL="http://<your-llama.cpp-server>:8080"

シェルをリロードします:

bash source ~/.bashrc

そしてモデル引数付きで CLI を実行します:

bash claude --model Qwen3.5-35B-Thinking


2. Claude Code 拡張機能をインストールした VS Code の設定

編集:

$HOME/.config/Code/User/settings.json

追加:

json "claudeCode.environmentVariables": [ { "name": "ANTHROPIC_BASE_URL", "value": "http://<your-llama.cpp-server>:8080" }, { "name": "ANTHROPIC_AUTH_TOKEN", "value": "dummy" }, { "name": "ANTHROPIC_API_KEY", "value": "sk-no-key-required" }, { "name": "ANTHROPIC_MODEL", "value": "gpt-oss-20b" }, { "name": "ANTHROPIC_DEFAULT_SONNET_MODEL", "value": "Qwen3.5-35B-Thinking-Coding" }, { "name": "ANTHROPIC_DEFAULT_OPUS_MODEL", "value": "Qwen3.5-27B-Thinking-Coding" }, { "name": "ANTHROPIC_DEFAULT_HAIKU_MODEL", "value": "gpt-oss-20b" }, { "name": "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC", "value": "1" } ], "claudeCode.disableLoginPrompt": true


補足

  • この設定により、vscode であらかじめ用意したプリセットのどれかを選ぶことで、llama.cpp のサーバー(または llama-swap)を使ってモデルを動的に切り替えられます。
  • ここで定義するモデル名が、llama-server.ini で設定したものと完全に一致していることを確認してください。

編集:その後、実際のところ CLI は私のローカルテストではあまりうまく動かず、個人的には他の CLI の方が true にしたくなっていました。でも u/Robos_Basilisk が、文脈(コンテキスト)長との相性はどうなのかと聞いてくれたので、それが理由だったのかもしれません。

なのでおそらく、HAIKU モデルのようにコンテキスト長が短いモデルを使うか、さらに環境変数の "CLAUDE_CODE_DISABLE_1M_CONTEXT""CLAUDE_CODE_MAX_OUTPUT_TOKENS" を設定した方がよいでしょう。

対応している環境変数の一覧はこちら: https://code.claude.com/docs/en/env-vars

編集:u/truthputer が、未ドキュメントの環境変数もおそらく設定した方がよいと指摘していました: "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"

submitted by /u/StrikeOner
[link] [comments]

広告