【llama.cpp+Qwen3.5】Qwen3.5をGGUF形式に変換後、llama.cppでローカルLLMとして実行

Zenn / 2026/4/7

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • Qwen3.5のモデルをGGUF形式へ変換し、llama.cppでローカルに動かす手順を解説しています。
  • 変換後のモデルを使うことで、クラウドなしでLLM推論を実行できる構成を示しています。
  • llama.cppを利用する前提で、ローカル実行に向けた実務的なワークフロー(準備〜起動)に焦点があります。
  • ローカルLLMの運用を想定し、環境構築や実行面でのつまずきが出やすいポイントを手順として扱っています。
環境 Windows11 + WSL2(CentOS9-Stream) CPU:Intel Core i5 2.90GHz メモリ:16GB GPU:NVIDIA GeForce GTX 1660(VRAM:6GB) docker, docker-composeはインストール済み 構築対象 llama.cppコンテナ Qwen3.5-4BのGGUFファイル 手順 ! PodmanとGPUのセットアップは過去の記事を参照 https://zenn.dev/name_take/articles/14b2978a7be448 gitのセットアップ dnfでgitとgi...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →