【llama.cpp+Qwen3.5】Qwen3.5をGGUF形式に変換後、llama.cppでローカルLLMとして実行

Zenn / 4/7/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical Usage

共有:

Key Points

Qwen3.5のモデルをGGUF形式へ変換し、llama.cppでローカルに動かす手順を解説しています。
変換後のモデルを使うことで、クラウドなしでLLM推論を実行できる構成を示しています。
llama.cppを利用する前提で、ローカル実行に向けた実務的なワークフロー（準備〜起動）に焦点があります。
ローカルLLMの運用を想定し、環境構築や実行面でのつまずきが出やすいポイントを手順として扱っています。

環境 Windows11 + WSL2(CentOS9-Stream) CPU：Intel Core i5 2.90GHz メモリ：16GB GPU：NVIDIA GeForce GTX 1660（VRAM:6GB） docker, docker-composeはインストール済み構築対象 llama.cppコンテナ Qwen3.5-4BのGGUFファイル手順 ! PodmanとGPUのセットアップは過去の記事を参照 https://zenn.dev/name_take/articles/14b2978a7be448 gitのセットアップ dnfでgitとgi...

Continue reading this article on the original site.

Read original →