Warpdrv:Strix Halo + RTX ProでQwen 35B/27Bを日常運用するためのオープンソースLlama.cppランチャー

Reddit r/LocalLLaMA / 2026/5/3

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者はWarpdrvというオープンソースのデスクトップランチャーを公開し、llama.cppを使ってローカルでLLMを動かしつつ、複数のバックエンドセッションを手軽に管理できるようにしています。
  • この構成ではQwen 3.6の27Bと35Bを並列に実行し、27BはCUDA、35BはStrix Haloのユニファイドメモリ上でROCm/Vulkanサポートを使うことを中心にしています。
  • Warpdrvには、MCP.jsonによるチャットでのツール呼び出し、コーディング用途のワークフロー向けのモデルルーター、そしてKVキャッシュのチェックポイント(実験的)などの機能があります。
  • プロジェクトにはllama.cppの事前ビルド済みバイナリは同梱されておらず、UI付きの“レシピ”(bashスクリプト)を使って1クリックでバックエンドをビルドできるようになっています。
  • また、Ubuntu 25.10でStrix Haloに対してROCmをコンテナなしで動かすための、カーネル設定やBIOS設定などの初期手順も共有されています。
Warpdrv - Strix Halo + RTX Proで日常的に使うための、Qwen 35b + 27b向けオープンソースLlama.cppランチャー。

こちらの環境でローカル実行するために、私がLLMを動かすアプリをオープンソースとして作成したので共有したいと思いました。

私のセットアップ

ハードウェア

  • FEVM FAEX1(128GB)
  • RTX Pro 5000 Blackwell(48GB)— OCuLink経由で接続
  • Aoostar AG02
  • mdadmを使ったraid-0で、内蔵m.2を2x2TB。

ソフトウェア:Ubuntu 25.10、cuda + vulkan、rocm向けにソースからビルドしたllama.cpp。

このアプリの使い方

基本的に、異なるLlamaバックエンドを同時に使って、2つのモデルを並列で動かしています。CUDAではQwen3.6 27b UD-Q6-KXLまたはNVFP4、Strix Haloの統合メモリではQwen3.6 35b A3B UD-Q6-KXLです。主にコーディングにはopencodeを使っています。内蔵のモデルルーターが便利です。

このアプリで他にできること

llama.cppのラッパーができる基本的なことに加えて、いくつか他のこともできます。全体として、目的に応じてllama-serverのインスタンスを立ち上げるための便利なアプリです。そしてオープンソースです。

  • MCP.json + チャットでのツール呼び出し
  • opencode / claude-code ローカル向けのモデルルーター
  • KVキャッシュのチェックポインティング(実験的)。
  • このアプリにはllama.cppのビルドは同梱されません。ただし、レシピ(UI付きのbashスクリプト)を設定してワンクリックでビルドできます。

Read Meに加えて、いくつかのガイドをご覧ください。

GitHubでwarpdrvを見に行く

これは初期段階のアルファリリースなので、多少の軽微な不具合があることを想定してください。私は主な不具合のほとんどは修正済みです。機能要望やバグ報告も歓迎します。

---

Strix HaloでROCmをセットアップする(Ubuntu 25.10)

Linux上のStrix Haloは、gfx1151でROCmをネイティブに動かすには少しセットアップが必要です。Strix Halo向けのDockerベースのツールボックスは知っています。動作するし、良い選択肢です。ただ、コンテナなしのベアメタルでやりたかっただけです。

試してみたい方向けに、下に手順を載せます。

  1. mainline kernel 6.18をインストール。Ubuntu 25.10のMainline Kernelsデスクトップアプリを使います。再起動。
    • 確認:uname -r が6.18.xを表示.
  2. BIOSで、専用のiGPU VRAMを4GBに設定し、Resizable BARを有効化しました。残りの124GBは、GTT経由でアクセス可能な統合メモリのままです。
  3. GRUBのパラメータを追加。/etc/default/grub.d/に以下を追加:iommu=pt amdgpu.gttsize=126976 ttm.pages_limit=32505856 amdgpu.cwsr_enable=0。注:amdgpu.gttsizeは最近のカーネルでは非推奨ですが、それでも反映されます。念のためttm.pages_limitと一緒に残しています。update-grubを実行してrebootしてください。
    • 確認:cat /sys/class/drm/card*/device/mem_info_gtt_totalで約124GBが表示されます。
  4. (任意)ファームウェアの更新。upstreamのlinux-firmwareツリーをクローンし、MESのblobを/lib/firmware/amdgpu/にコピーします。まずmd5を確認してください。私のファームウェアはすでに最新だったので、この手順は実行しませんでした。
  5. ROCm 7.2をインストール。ホスト側でAMDのリポジトリ経由。シンボリックリンクを追加:libxml2.so.16 -> libxml2.so.2。そうしないと一部のライブラリが読み込まれないことがあります。
    • 確認:rocminfo | grep gfxでgfx1151が表示されます。
  6. ROCm向けにllama.cppをビルド。cmake -B build -DGGML_HIP=ON -DAMDGPU_TARGETS="gfx1151" 4 -DCMAKE_BUILD_TYPE=Release -DCMAKE_HIP_FLAGS="-mllvm --amdgpu-unroll-threshold-local=600"
  7. 実行時に知っておくべきことは3つあります:
  • HSA_OVERRIDE_GFX_VERSIONを設定しないでください。gfx1151に対してgfx1100用のカーネルディスパッチが強制され、rms_normでセグフォールトします。
  • 必要なランタイムフラグ:--no-warmup -fa 1 -dio --no-mmap--no-warmupなしだとウォームアップ中にセグフォールトします。
  • 確認:llama-cliをモデル付きで実行し、セグフォールトせずにロードされトークン生成ができることを確認してください。

加えて、CUDA 13.2(RTX Pro 5000)向けにも、標準の-DGGML_CUDA=ONの流れでソースからllama.cppをビルドしています。特別な対応はしていません。

---

PS. Apple Mac:私はMacを所有していないため、現時点ではMacOS上でアプリをテストできていません。ソースからビルドしてもらっても構いませんし、ビルド結果を私に共有してくれれば、GitHubのリリースに追加できるようにします。ReadMeであなたのGitHubのハンドルを紹介します。ありがとうございます :)

submitted by /u/xornullvoid
[link] [comments]