RX 7900 XTXでllamacppと並行してDocker上でhipfireを動かしてみた

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 著者は、既存のllama.cpp環境を変更せずに、AMD Radeon RX 7900 XTX上でhipfireをDocker経由で動かし、同時に併用できたと報告しています。
  • Qwen3.6 27B(MQ4)をテストし、ログ上でTriAttentionのサイドカーやDFlashのドラフトが正しく読み込まれることを確認しています。
  • 現時点の初期結果では、スループットは約40トークン/秒(AR)で、APIの挙動も問題なさそうですが、DFlashが実際に有効化されているかはまだ確認していません。
  • docker化の実務上の注意として、hipfireは単一の実行ファイルではなく、Bun/TypeScriptのHTTPサーバーがエンジンをサブプロセスとして起動する構成だと述べています。
  • 著者は近いうちにGitHubへDockerfileとdocker-composeの構成を公開する可能性があり、質問にも対応するとしています。

Qwen3.6 27Bで長いコンテキストが失敗する問題にしばらく悩まされていて、そこで hipfire に行き当たりました。既存のllamacppスタックと並行して動かしつつ、何も触らずに済むようにするため、1晩かけてdocker化してみました。

7900 XTXでQwen3.6 27B MQ4 を動かしています。TriAttentionのサイドカーとDFlashのドラフトはいずれも、ログどおり正しくロードされています。~40 tok/s AR で、まだDFlashが実際に有効化されているかは確認できていません。まだ始めたばかりですが、ちゃんと応答しますし、APIもきれいです。

つまずいた点の1つとして、hipfireは「そのまま実行するだけの単一のバイナリ」ではありません。CLIはBun/TypeScriptのHTTPサーバーで、エンジンをサブプロセスとして起動します。docker化しようとしている場合は、この点が関係します。

興味がある方がいれば、明日GitHubにDockerfileとcomposeのセットアップを載せます。その間に質問があれば喜んで答えます。

投稿者: /u/AgentErgoloid
[リンク] [コメント]