LlamaStation v0.9 — マルチバックエンド対応のWindows向け llama.cpp GUI、TurboQuantやMTPなど

Reddit r/LocalLLaMA / 2026/5/21

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • LlamaStation v0.9は、llama.cpp用のWindows GUIで、llama-server.exeをサブプロセスとして直接起動し、コマンドラインの各フラグを中間的な抽象化なしでフルに制御できます。
  • このアプリは、公式llama.cpp(MTP対応)・TurboQuant・AtomicChat・実験的なBeeLlamaなど複数の切り替え可能なバックエンドを追加し、利便性を高めつつllama.cppの性能を維持することを狙っています。
  • GPUごとのVRAMをリアルタイム表示する機能、モデルごとの設定プロファイルの自動保存、オフライン音声モード(XTTS v2のクローン+faster-whisperによる認識)、および自動化向けのヘッドレスモードを備えています。
  • アプリ内から基盤となるllama.cppの更新やAtomicChatのリリース確認ができるオートアップデータも提供されています。
  • 著者は、TurboQuantのKVキャッシュとMTPを組み合わせた長いコンテキスト用途で実測の改善を報告しており、Linux/Mac対応や新しいバックエンド連携などのコミュニティ貢献とフィードバックを歓迎しています。

これをここ数か月、サイドプロジェクトとして作ってきました。きっかけは、モデルを試すたびに llama.cpp をコマンドラインから毎回実行したくなかったからです。クリックで動くものが欲しかったんです。
まず前置き:私は開発者ではありません。これはAIの支援を受けて、100%ノリで書いたコードです。コードベースのどこかが気に障ったら、ぜひ親切にPRを開いてください
多くのフロントエンドは、すべてを抽象化(Ollama、LM Studio など)の裏に隠すか、手作業でコマンドラインを書くことを残します。LlamaStation はその中間に位置づけようとしています。すべてのパラメータに完全にアクセスできる、クリーンなUIです。

何が違うのか
llama-server を直接実行します — 中間レイヤーなし、デーモンなし、抽象化なし。LlamaStation は llama-server.exe をサブプロセスとして起動し、すべてのフラグを完全に制御します。設定した内容は、そのままバイナリに渡されます。つまり、Ollama のようなツールが追加してくるオーバーヘッドなしで、 llama.cpp のフル性能を得られます。

複数のバックエンド — UIから切り替え可能:

⚡ 公式 llama.cpp(PR #22673 以降、MTP 対応)
TurboQuant fork — 非対称 KV キャッシュ量子化。これが私にとっての決定的な機能です:24GB VRAM(デュアル RTX 3060)で 200k+ のコンテキストを、品質低下は最小限に抑えられます
⚛️ AtomicChat — TurboQuant + MTP を組み合わせ
BeeLlama — DFlash + TurboQuant(実験的)

GPU ごとのリアルタイム VRAM メーター — 色分けされ、モデルの読み込みに合わせてライブ更新します。
モデルごとのプロファイル — すべての設定が、自動的にモデルファイルごとに記憶されます。
音声モード — push-to-talk または常時待ち受け、XTTS v2 による音声クローン、faster-whisper による音声認識。完全にオフライン。
ヘッドレスモード — GUIなしで、保存済みプロファイルを使って実行。サーバーや自動化向けです。
自動アップデーター — アプリ内から llama.cpp 公式を更新(さらに AtomicChat のリリースもチェック)します。

コンテキストのための私のセットアップ
デュアル RTX 3060(合計 24GB)、Ryzen 7 5700X、32GB DDR4 3600MHz、Windows 11。TurboQuant KV キャッシュと MTP を使って Qwen3.6 27B Q4_K_M を実行 — 177k コンテキストです。MTP なしだと同じモデルは ~17 tok/s で始まり、長い応答では ~10 まで落ちます。MTP ありだと ~29 tok/s で始まり、長いコード生成でも ~22 を維持します。これが、私が LlamaStation を作った理由です。

ステータス
v0.9 — 私の毎日の使用にはうまく機能しています。他のツールは完全に置き換えていて、コーディングエージェント、Telegram ボット、音声アシスタント、その他のローカル自動化のバックエンドとして使っています。既知のバグが 1 つあります(OOM クラッシュの後にサーバー watchdog が「restarting」状態で固まる)し、おそらく他にもまだ踏んでいない問題があるでしょう。フィードバックや貢献を得るために公開しました。
職業としてのプログラマーではありませんが、AIの支援だけでこれを全部作りました。設計上、コードベースは単一のメインファイルで、読みやすく、改造もしやすいです。
貢献は大歓迎です — 特に:

Linux/Mac への移植(現在 Windows のみ)
バグ修正
新しいバックエンドの統合
UI の改善

GitHub — MIT ライセンス、テレメトリなし、アカウントなし。

- u/Responsible_Egg9736

submitted by /u/pmttyji
[link] [comments]