| この週末、OpenCode や OpenAI Codex のようなエージェント型のコーディングアシスタントにおいて、ローカルのLLMをプライマリーモデルとしてどれくらいうまく動かせるかを試してみたかったです。私は Qwen3.5-27B を選びました。これはハイブリッド構造のモデルで、サイズに対する性能が非常に高いとして最近かなり注目を集めています。ローカルにセットアップし、OpenCode で動かして、どこまでいけるか確認しました。 私の環境は、NVIDIA RTX4090(24GB)を搭載したワークステーションで、llama.cpp 経由でモデルを動かし、OpenCode は macbook 上で実行しています(接続は Tailscale 経由)。 セットアップ:
私のテスト結果に基づくと:
ワークフロー全体をセットアップすること自体が、学びとしてとても良い経験だったと思います。ローカルモデルをチャットアシスタントとして使うのと、それをエージェント型のコーディングアシスタントとして使うのでは話が別です。特に、ツール呼び出しが正しいエージェント挙動として機能するようにするのがポイントです。適切な意思決定がたくさん必要になります:自分のマシンにうまく収まる量子化、サイズカテゴリ内でのベストなモデル、ツール呼び出しのための正しいチャットテンプレート、最適なコンテキストサイズと KV キャッシュ設定。 また、学んだつまずきポイントや実用的なヒントも含めて、セットアップ全体を手順ごとに詳しくまとめたブログも書きました。 セットアップに関する質問なら何でもお答えします。 ブログ: https://aayushgarg.dev/posts/2026-03-29-local-llm-opencode/ [リンク] [コメント] |
OpenCodeで主要モデルとしてローカルにQwen3.5-27Bを動かす
Reddit r/LocalLLaMA / 2026/3/30
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- テスターは、エージェント型コーディング支援(OpenCode/Codexスタイルのワークフロー)において、主要モデルとしてQwen3.5-27BのLLMをローカルで実行し、実際のコーディングとツール呼び出しの性能を評価しました。
- NVIDIA RTX 4090(24GB)上で、llama.cppを使い4-bit量子化・64Kコンテキスト構成にしたところ、MacBookからTailscale越しにOpenCodeを使用しながら、プリフィルは約~2,400 tok/s、生成は~40 tok/s程度と報告されています。
- このモデルは、複数のPythonスクリプトの作成、編集、デバッグ、テスト、そして正しいツール呼び出しでのコード実行など、エージェント的なタスクに対して驚くほど良好な結果を示しました。
- エージェントスキルを追加し、Context7をMCPサーバーとして最新ドキュメントを取得するようにすると、性能はさらに向上しましたが、プロンプトが緩い「vibe coding(雰囲気コーディング)」には理想的ではありませんでした。
- 著者は、良いエージェント挙動を得るには、量子化、ツール呼び出し用のモデル/チャットテンプレート、コンテキストサイズ、そしてKVキャッシュ設定などを慎重に決める必要があると強調しており、実践的な落とし穴を含めた手順をブログで公開しています。




