みなさん、こんにちは、
Jetson Orin(AGX、NX、Nano)上でGPTQモデルを実行している場合、標準の vLLM が SM 8.7 用の Marlin カーネルを同梱していないことに気づいているはずです。8.0、8.6、8.9、9.0 はカバーしていますが、Orin ファミリーには対応していません。つまり、GPTQ 推論中、テンソルコアが何もしていない状態になっています。
AGX Orin 64GB 上で Qwen3.5-35B-A3B-GPTQ-Int4 をサーブしようとした際にこの問題に直面しました。Marlin なしのパフォーマンスは期待外れだったので、SM 8.7 ターゲットを含む vLLM 0.17.0 をビルドし、wheel としてパッケージしました。
差は顕著でした:
- Prefill は 523 tok/s(llama.cpp)から 2,001 tok/s へ — およそ 3.8 倍
- Decode は 短いコンテキストで ~22.5 から ~31 tok/s へ向上
- 20K コンテキストのエンドツーエンド:17s vs llama.cpp の 47s(約 2.8x の高速化)
Wheel は HuggingFace にあるので、次の1行でインストールできます:
pip install https://huggingface.co/thehighnotes/vllm-jetson-orin/resolve/main/vllm-0.17.0+cu126-cp310-cp310-linux_aarch64.whl JetPack 6.x / CUDA 12.6 / Python 3.10(標準の Jetson スタック)向けにビルドされています。
完全なベンチマークとセットアップノートはリポジトリにあります: https://github.com/thehighnotes/vllm-jetson-orin
同様のセットアップで作業している方の役に立てば幸いです。ご質問があれば喜んでお答えします。
〜Mark
[リンク] [コメント]




