簡単にローカルモデルをデモする
Zenn / 4/17/2026
💬 OpinionDeveloper Stack & InfrastructureTools & Practical Usage
Key Points
- ローカル環境でモデルを手軽にデモする手順・考え方を整理し、手元で挙動確認できる流れを提示しています。
- 実行に必要な前提(環境準備やモデルの扱い方)を前面に出し、「手を動かす」ことを重視した内容になっています。
- デモを通して、ローカル推論の感覚(動作、速度感、出力の確認)を素早く掴めることが主眼です。
- ローカルでの動作確認はPoCや検証の入口として有用で、開発・検討の意思決定を前倒しできます。
バックエンド(vLLM + LiteLLM)
vLLMのインストール
python -m venv .venv
source .venv/bin/activate
uv pip install vllm
hf auth login
モデルの起動
mkdir -p logs
tmux new-session -d -s vllm1 \
"CUDA_VISIBLE_DEVICES=1 \
./.venv/bin/vllm serve tokyotech-llm/Qwen3-Swallow-8B-RL-v0.2 \
--port 8500 \
--tensor-parallel-...
Continue reading this article on the original site.
Read original →
