今週、私たちの多くは、エージェント型コーディング用途で突然Claude Codeへのアクセスを失うかもしれないと気づいたことで、共通のパニック状態に陥ってしまいました。これは開発者のワークフローの重要な一部になっており、生産性は現在、レート制限、価格ティア、そしてある企業にいる人が別の企業にいる人からGPUを確実に購入できるかどうか、という要素に左右されるようになっています。
私は、その先にある未来にはワクワクできませんし、そもそも開発者の生産性を一般的に制約するのは最悪だと思っています。さらに、重要なワークフロー/ツールの変更に驚かされたくもありませんし、あなたも同じだと思います。そこで、Claude Code内でのSonnetワークフローのドロップイン置き換えとして、Qwen3.6-27B-FP8(今週リリースされたもので、多くのベンチマークでSonnetを上回っている)を活用する提案を共有したいと思いました。
いくつかのコマンドだけで、次のようにできます:
- レート制限なし
- トークンベースの課金なし
- 時間の経過による一貫した品質が保証(ピーク時間にこっそり量子化されない)
- AnthropicモデルなしのClaude Code
- 費用は約1.66ドル/時(ただしコーディングへの中断はなし。必要に応じてオンデマンドで支出を管理できます)
また、最終形をイメージするには:https://imgur.com/a/EWQkEL8
これを実現するには、重要な前提があります。つまり、開発者であるあなたは、大企業よりも自分自身でGPUを見つけて調達するのが得意で、しかもより安くできる、ということです。これは概ね本当で、Voltage Park、Google Cloud、AWS、そして他にも多数のサービスが、月額のティア課金ではなく、時間単価であなたに直接GPUアクセスを提供してくれます。
このガイドでは、Thunder Computeを使います。彼らは「世界で最も安いGPU」をうたっていますが、同時に管理用のCLIツールとエージェント向けのドキュメントも用意しています。私は今週までこのサービスを知りませんでしたし、彼らと何ら関係もありません。ただ、この分野には選択肢となるプレイヤーがどれだけ多いかがわかります。
クイックスタートガイド
ターミナルを2つ開いてください。このガイドでは、ローカルにSSHとthunder-cliがインストールされていること、そしてアカウントにいくらかクレジットがあることを前提とします。
ターミナル1:リモート推論
モデルをホストして実行するためのリモートマシンを用意する必要があります。
NOTE:マシンを動かしているあいだ、1秒ごとに費用がかかります。そのため、時計はこの時点からガイドの終了まで動き始めます。いつでも止めることができ、リストの最初のインスタンスを削除するには「tnr delete 0」を実行します(「tnr status」を使って、複数のインスタンスを動かしている場合はインスタンスIDを取得してください)。
tnr create --mode prototyping --gpu h100 --vcpus 8 --template base --disk-size-gb 100 --ephemeral-disk 200; tnr status;
statusコマンドでマシンが「RUNNING」になったら、ctrl+cで終了します。
次に、リモートマシンに接続する必要がありますが、同時にローカルのClaude Codeがそれと会話できるようにもしなければなりません。そこで、2つの間のポートを安全に転送するためにSSHトンネリングを使います。考え方としては、ローカルでOllamaやllama.cppを動かすのと同じようなものです。ただし、トンネルによって「他人のマシン(高性能GPU付き)」と「あなたのマシン」が橋渡しされる、というだけです。
tnr connect 0 -t 8000;
これで、コンソール上で「thunder@<remote_machine>」としてリモートマシンにログインしているはずです。素晴らしい、次にこのコマンドブロックをコピー&ペーストして、モデルのロードを待ちます(5〜10分ほどかかり、最大のコールドスタート負荷になります):
uv venv --python 3.12; source .venv/bin/activate; uv pip install vllm==0.19.1; sudo /sbin/ldconfig; export HF_HUB_CACHE=/ephemeral; hf download Qwen/Qwen3.6-27B-FP8; vllm serve Qwen/Qwen3.6-27B-FP8
--served-model-name qwen3.6-27b
--trust-remote-code
--language-model-only
--max-model-len 131072
--gpu-memory-utilization 0.95
--tensor-parallel-size 1
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--enable-prefix-caching
--gdn-prefill-backend triton
--host 0.0.0.0
--port 8000
vLLMが準備できると、ポート8000で動作している旨のメッセージが表示されます。それを確認したら、Claude Codeのターミナル設定を行えます。作業が終わるまでvLLMを動かしたままにできます(いつでも止めたいときはctrl+c)。
ターミナル2:Claude Code
安全のために、この一連の作業を行う前にAnthropicアカウントからログアウトしておきたくなるはずです。これは「claude /logout」で行えます。
次に、Claude CodeをあなたのvLLMインスタンスに向ける必要があります。これらのコマンドは各ターミナルセッションごとに有効なだけなので、ターミナルを閉じると消えます。
export ANTHROPIC_BASE_URL="http://localhost:8000"; export CLAUDE_CODE_AUTO_COMPACT_WINDOW=117965; export ANTHROPIC_API_KEY="not-a-real-key"; export ANTHROPIC_DEFAULT_OPUS_MODEL="qwen3.6-27b"; export ANTHROPIC_DEFAULT_SONNET_MODEL="qwen3.6-27b"; export ANTHROPIC_DEFAULT_HAIKU_MODEL="qwen3.6-27b";
最後に、Claude Codeを実行してハックしましょう:
claude --model qwen3.6-27b;
これにより、既存のエージェント型コーディングワークフローに馴染む専用のFASTモデルが使えるようになります。モデル、インスタンス設定、コンテキストウィンドウ、コンパクション、その他の設定は、あなたのニーズに合わせて調整できます。
作業が終わったら、Claude Codeを閉じ、vLLMを終了し、thunder@ SSHセッションを抜けてから、インスタンスを破棄します:
tnr status; tnr delete <instance_id>;
プロセスをもう一度最初からやり直す/必要に応じてクレジットを補充してください。トレードオフは別物ですが、ローカルVRAMに恵まれていない人にとっては、リモート推論ティアの「価値」が変わり続ける中で、エージェント型ワークフローの良い中間案になるかもしれません。
私が試したが、あなたがやらなくていいようにする他のアプローチ
- llama.cpp:事前にビルドされたCUDAバイナリを配布していないため、ソースからコンパイルする必要があります。可能ではありますが面倒です。より多くのTPMが必要で、品質を犠牲にできるなら、Unslothはたぶんズタズタにしてくれるでしょう。
- ollama:Thunder Computeにはこれ用のテンプレートもありますが、バージョンのズレにより今週のQwen3.6リリースにはまだ対応していませんでした。加えて、必要ならソースからコンパイルする必要があります。
- Apache Ray:プロダクション向けの推論提供機能/性能という観点では、vLLMに対する本当に唯一の有力な競合です。特定のモデル向けのカスタマイズや、特殊なユースケースに向いていて、トランスフォーマーにおける本当に細かな性能チューニングにも良いです。
- 提供用の非エフェメラルストレージ:ネットワーク経由になり遅すぎます。vLLMはチェックポイントのシャードを読み込むのに永遠に時間がかかります。大規模モデルでやるのはやめた方がいいです。
参考文献
[link] [comments]




