簡単にローカルモデルをデモする

Zenn / 4/17/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical Usage

Key Points

  • ローカル環境でモデルを手軽にデモする手順・考え方を整理し、手元で挙動確認できる流れを提示しています。
  • 実行に必要な前提(環境準備やモデルの扱い方)を前面に出し、「手を動かす」ことを重視した内容になっています。
  • デモを通して、ローカル推論の感覚(動作、速度感、出力の確認)を素早く掴めることが主眼です。
  • ローカルでの動作確認はPoCや検証の入口として有用で、開発・検討の意思決定を前倒しできます。
バックエンド(vLLM + LiteLLM) vLLMのインストール python -m venv .venv source .venv/bin/activate uv pip install vllm hf auth login モデルの起動 mkdir -p logs tmux new-session -d -s vllm1 \ "CUDA_VISIBLE_DEVICES=1 \ ./.venv/bin/vllm serve tokyotech-llm/Qwen3-Swallow-8B-RL-v0.2 \ --port 8500 \ --tensor-parallel-...

Continue reading this article on the original site.

Read original →