【llama.cpp+Qwen3.5】Qwen3.5をGGUF形式に変換後、llama.cppでローカルLLMとして実行
Zenn / 2026/4/7
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- Qwen3.5のモデルをGGUF形式へ変換し、llama.cppでローカルに動かす手順を解説しています。
- 変換後のモデルを使うことで、クラウドなしでLLM推論を実行できる構成を示しています。
- llama.cppを利用する前提で、ローカル実行に向けた実務的なワークフロー(準備〜起動)に焦点があります。
- ローカルLLMの運用を想定し、環境構築や実行面でのつまずきが出やすいポイントを手順として扱っています。
環境
Windows11 + WSL2(CentOS9-Stream)
CPU:Intel Core i5 2.90GHz
メモリ:16GB
GPU:NVIDIA GeForce GTX 1660(VRAM:6GB)
docker, docker-composeはインストール済み
構築対象
llama.cppコンテナ
Qwen3.5-4BのGGUFファイル
手順
!
PodmanとGPUのセットアップは過去の記事を参照
https://zenn.dev/name_take/articles/14b2978a7be448
gitのセットアップ
dnfでgitとgi...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



