Jetson Orin 上の vLLM — Marlin GPTQ 対応の事前ビルド wheel（3.8x プリフィル速度向上）

Reddit r/LocalLLaMA / 2026/3/15

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

Jetson Orin（AGX、NX、Nano）向けの新しい事前ビルド vLLM wheel には、SM 8.7 用の Marlin カーネルが含まれており、GPTQ 推論中にテンソルコアを有効にします。
ユーザーが SM 8.7 対応の vLLM 0.17.0 を自分でビルドし、JetPack 6.x / CUDA 12.6 / Python 3.10 用の wheel としてパッケージしました。
ベンチマークは顕著な速度向上を示します：プリフィル約3.8x（523 tok/s から 2,001 tok/s）、デコードは短いコンテキストで ~22.5 から ~31 tok/s、20K コンテキストのエンドツーエンドは 47s から 17s（2.8x 高速）。
インストールは HuggingFace の wheel からの1行の pip インストールで完了します。リポジトリには完全なベンチマークとセットアップノートがあります。

みなさん、こんにちは、

Jetson Orin（AGX、NX、Nano）上でGPTQモデルを実行している場合、標準の vLLM が SM 8.7 用の Marlin カーネルを同梱していないことに気づいているはずです。8.0、8.6、8.9、9.0 はカバーしていますが、Orin ファミリーには対応していません。つまり、GPTQ 推論中、テンソルコアが何もしていない状態になっています。

AGX Orin 64GB 上で Qwen3.5-35B-A3B-GPTQ-Int4 をサーブしようとした際にこの問題に直面しました。Marlin なしのパフォーマンスは期待外れだったので、SM 8.7 ターゲットを含む vLLM 0.17.0 をビルドし、wheel としてパッケージしました。

差は顕著でした：

- Prefill は 523 tok/s（llama.cpp）から 2,001 tok/s へ — およそ 3.8 倍

- Decode は短いコンテキストで ~22.5 から ~31 tok/s へ向上

- 20K コンテキストのエンドツーエンド：17s vs llama.cpp の 47s（約 2.8x の高速化）

Wheel は HuggingFace にあるので、次の1行でインストールできます：

 pip install https://huggingface.co/thehighnotes/vllm-jetson-orin/resolve/main/vllm-0.17.0+cu126-cp310-cp310-linux_aarch64.whl

JetPack 6.x / CUDA 12.6 / Python 3.10（標準の Jetson スタック）向けにビルドされています。

完全なベンチマークとセットアップノートはリポジトリにあります： https://github.com/thehighnotes/vllm-jetson-orin

同様のセットアップで作業している方の役に立てば幸いです。ご質問があれば喜んでお答えします。

〜Mark

投稿者 /u/thehighnotes
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/15Dailyインサイトを見る →

AIにイラスト作成を依頼するのは意外と難しい

note

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

note

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

Jetson Orin 上の vLLM — Marlin GPTQ 対応の事前ビルド wheel（3.8x プリフィル速度向上）

要点

💡 この記事が使われたインサイト

関連記事

AIにイラスト作成を依頼するのは意外と難しい

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

AIにイラスト作成を依頼するのは意外と難しい

裏カツ 奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

時代劇のエンディング・テーマを目指したんですが。 〜Sunoで作曲〜

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜