Qwen3.6 27Bで長いコンテキストが失敗する問題にしばらく悩まされていて、そこで hipfire に行き当たりました。既存のllamacppスタックと並行して動かしつつ、何も触らずに済むようにするため、1晩かけてdocker化してみました。
7900 XTXでQwen3.6 27B MQ4 を動かしています。TriAttentionのサイドカーとDFlashのドラフトはいずれも、ログどおり正しくロードされています。~40 tok/s AR で、まだDFlashが実際に有効化されているかは確認できていません。まだ始めたばかりですが、ちゃんと応答しますし、APIもきれいです。
つまずいた点の1つとして、hipfireは「そのまま実行するだけの単一のバイナリ」ではありません。CLIはBun/TypeScriptのHTTPサーバーで、エンジンをサブプロセスとして起動します。docker化しようとしている場合は、この点が関係します。
興味がある方がいれば、明日GitHubにDockerfileとcomposeのセットアップを載せます。その間に質問があれば喜んで答えます。
[リンク] [コメント]



