【llama.cpp+Qwen3.5】Qwen3.5をGGUF形式に変換後、llama.cppでローカルLLMとして実行
Zenn / 4/7/2026
💬 OpinionDeveloper Stack & InfrastructureTools & Practical Usage
Key Points
- Qwen3.5のモデルをGGUF形式へ変換し、llama.cppでローカルに動かす手順を解説しています。
- 変換後のモデルを使うことで、クラウドなしでLLM推論を実行できる構成を示しています。
- llama.cppを利用する前提で、ローカル実行に向けた実務的なワークフロー(準備〜起動)に焦点があります。
- ローカルLLMの運用を想定し、環境構築や実行面でのつまずきが出やすいポイントを手順として扱っています。
環境
Windows11 + WSL2(CentOS9-Stream)
CPU:Intel Core i5 2.90GHz
メモリ:16GB
GPU:NVIDIA GeForce GTX 1660(VRAM:6GB)
docker, docker-composeはインストール済み
構築対象
llama.cppコンテナ
Qwen3.5-4BのGGUFファイル
手順
!
PodmanとGPUのセットアップは過去の記事を参照
https://zenn.dev/name_take/articles/14b2978a7be448
gitのセットアップ
dnfでgitとgi...
Continue reading this article on the original site.
Read original →💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.




