vllm serve でLLM-jp-4を動かす

Zenn / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

vLLMのserve機能を使い、LLM-jp-4モデルをローカル/サーバーで動かす手順を示す実装記事である。
モデルのロードから推論提供（サーバー起動）までの流れが中心となっており、手元での検証や導入検討の足がかりになる。
vLLMを用いることで、効率的な推論サービング基盤としてLLM-jp-4を扱える点が実用上のメリットになる。
実際の起動・設定の考え方が示されるため、手元環境への適用や運用準備に直結する。

llm-jp-4-8b-thinking などのモデルを vllm serve で動かす際、カスタムの reasoning-parser-plugin を指定すると、初期化時に以下のエラーが発生することがあります。バージョン vllm==0.18.0 vllm serve コマンド vllm serve llm-jp/llm-jp-4-8b-thinking \ --trust-remote-code \ --reasoning-parser-plugin {path to llmjp4_reasoning_parser.py} \ --reasoning-parse...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →