| こちらの環境でローカル実行するために、私がLLMを動かすアプリをオープンソースとして作成したので共有したいと思いました。 私のセットアップハードウェア
ソフトウェア:Ubuntu 25.10、cuda + vulkan、rocm向けにソースからビルドしたllama.cpp。 このアプリの使い方基本的に、異なるLlamaバックエンドを同時に使って、2つのモデルを並列で動かしています。CUDAではQwen3.6 27b UD-Q6-KXLまたはNVFP4、Strix Haloの統合メモリではQwen3.6 35b A3B UD-Q6-KXLです。主にコーディングにはopencodeを使っています。内蔵のモデルルーターが便利です。 このアプリで他にできることllama.cppのラッパーができる基本的なことに加えて、いくつか他のこともできます。全体として、目的に応じてllama-serverのインスタンスを立ち上げるための便利なアプリです。そしてオープンソースです。
これは初期段階のアルファリリースなので、多少の軽微な不具合があることを想定してください。私は主な不具合のほとんどは修正済みです。機能要望やバグ報告も歓迎します。 --- Strix HaloでROCmをセットアップする(Ubuntu 25.10)Linux上のStrix Haloは、gfx1151でROCmをネイティブに動かすには少しセットアップが必要です。Strix Halo向けのDockerベースのツールボックスは知っています。動作するし、良い選択肢です。ただ、コンテナなしのベアメタルでやりたかっただけです。 試してみたい方向けに、下に手順を載せます。
加えて、CUDA 13.2(RTX Pro 5000)向けにも、標準の --- PS. Apple Mac:私はMacを所有していないため、現時点ではMacOS上でアプリをテストできていません。ソースからビルドしてもらっても構いませんし、ビルド結果を私に共有してくれれば、GitHubのリリースに追加できるようにします。ReadMeであなたのGitHubのハンドルを紹介します。ありがとうございます :) [link] [comments] |
Warpdrv:Strix Halo + RTX ProでQwen 35B/27Bを日常運用するためのオープンソースLlama.cppランチャー
Reddit r/LocalLLaMA / 2026/5/3
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 著者はWarpdrvというオープンソースのデスクトップランチャーを公開し、llama.cppを使ってローカルでLLMを動かしつつ、複数のバックエンドセッションを手軽に管理できるようにしています。
- この構成ではQwen 3.6の27Bと35Bを並列に実行し、27BはCUDA、35BはStrix Haloのユニファイドメモリ上でROCm/Vulkanサポートを使うことを中心にしています。
- Warpdrvには、MCP.jsonによるチャットでのツール呼び出し、コーディング用途のワークフロー向けのモデルルーター、そしてKVキャッシュのチェックポイント(実験的)などの機能があります。
- プロジェクトにはllama.cppの事前ビルド済みバイナリは同梱されておらず、UI付きの“レシピ”(bashスクリプト)を使って1クリックでバックエンドをビルドできるようになっています。
- また、Ubuntu 25.10でStrix Haloに対してROCmをコンテナなしで動かすための、カーネル設定やBIOS設定などの初期手順も共有されています。




