vllm serve でLLM-jp-4を動かす
Zenn / 2026/4/17
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- vLLMのserve機能を使い、LLM-jp-4モデルをローカル/サーバーで動かす手順を示す実装記事である。
- モデルのロードから推論提供(サーバー起動)までの流れが中心となっており、手元での検証や導入検討の足がかりになる。
- vLLMを用いることで、効率的な推論サービング基盤としてLLM-jp-4を扱える点が実用上のメリットになる。
- 実際の起動・設定の考え方が示されるため、手元環境への適用や運用準備に直結する。
llm-jp-4-8b-thinking などのモデルを vllm serve で動かす際、カスタムの reasoning-parser-plugin を指定すると、初期化時に以下のエラーが発生することがあります。
バージョン
vllm==0.18.0
vllm serve コマンド
vllm serve llm-jp/llm-jp-4-8b-thinking \
--trust-remote-code \
--reasoning-parser-plugin {path to llmjp4_reasoning_parser.py} \
--reasoning-parse...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →


