AI Navigate

Jetson Orin 上の vLLM — Marlin GPTQ 対応の事前ビルド wheel(3.8x プリフィル速度向上)

Reddit r/LocalLLaMA / 2026/3/15

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • Jetson Orin(AGX、NX、Nano)向けの新しい事前ビルド vLLM wheel には、SM 8.7 用の Marlin カーネルが含まれており、GPTQ 推論中にテンソルコアを有効にします。
  • ユーザーが SM 8.7 対応の vLLM 0.17.0 を自分でビルドし、JetPack 6.x / CUDA 12.6 / Python 3.10 用の wheel としてパッケージしました。
  • ベンチマークは顕著な速度向上を示します:プリフィル約3.8x(523 tok/s から 2,001 tok/s)、デコードは短いコンテキストで ~22.5 から ~31 tok/s、20K コンテキストのエンドツーエンドは 47s から 17s(2.8x 高速)。
  • インストールは HuggingFace の wheel からの1行の pip インストールで完了します。リポジトリには完全なベンチマークとセットアップノートがあります。

みなさん、こんにちは、

Jetson Orin(AGX、NX、Nano)上でGPTQモデルを実行している場合、標準の vLLM が SM 8.7 用の Marlin カーネルを同梱していないことに気づいているはずです。8.0、8.6、8.9、9.0 はカバーしていますが、Orin ファミリーには対応していません。つまり、GPTQ 推論中、テンソルコアが何もしていない状態になっています。

AGX Orin 64GB 上で Qwen3.5-35B-A3B-GPTQ-Int4 をサーブしようとした際にこの問題に直面しました。Marlin なしのパフォーマンスは期待外れだったので、SM 8.7 ターゲットを含む vLLM 0.17.0 をビルドし、wheel としてパッケージしました。

差は顕著でした:

- Prefill は 523 tok/s(llama.cpp)から 2,001 tok/s へ — およそ 3.8 倍

- Decode は 短いコンテキストで ~22.5 から ~31 tok/s へ向上

- 20K コンテキストのエンドツーエンド:17s vs llama.cpp の 47s(約 2.8x の高速化)

Wheel は HuggingFace にあるので、次の1行でインストールできます:

 pip install https://huggingface.co/thehighnotes/vllm-jetson-orin/resolve/main/vllm-0.17.0+cu126-cp310-cp310-linux_aarch64.whl 

JetPack 6.x / CUDA 12.6 / Python 3.10(標準の Jetson スタック)向けにビルドされています。

完全なベンチマークとセットアップノートはリポジトリにあります: https://github.com/thehighnotes/vllm-jetson-orin

同様のセットアップで作業している方の役に立てば幸いです。ご質問があれば喜んでお答えします。

〜Mark

投稿者 /u/thehighnotes
[リンク] [コメント]