これをここ数か月、サイドプロジェクトとして作ってきました。きっかけは、モデルを試すたびに llama.cpp をコマンドラインから毎回実行したくなかったからです。クリックで動くものが欲しかったんです。
まず前置き:私は開発者ではありません。これはAIの支援を受けて、100%ノリで書いたコードです。コードベースのどこかが気に障ったら、ぜひ親切にPRを開いてください
多くのフロントエンドは、すべてを抽象化(Ollama、LM Studio など)の裏に隠すか、手作業でコマンドラインを書くことを残します。LlamaStation はその中間に位置づけようとしています。すべてのパラメータに完全にアクセスできる、クリーンなUIです。
何が違うのか
llama-server を直接実行します — 中間レイヤーなし、デーモンなし、抽象化なし。LlamaStation は llama-server.exe をサブプロセスとして起動し、すべてのフラグを完全に制御します。設定した内容は、そのままバイナリに渡されます。つまり、Ollama のようなツールが追加してくるオーバーヘッドなしで、 llama.cpp のフル性能を得られます。
複数のバックエンド — UIから切り替え可能:
⚡ 公式 llama.cpp(PR #22673 以降、MTP 対応)
TurboQuant fork — 非対称 KV キャッシュ量子化。これが私にとっての決定的な機能です:24GB VRAM(デュアル RTX 3060)で 200k+ のコンテキストを、品質低下は最小限に抑えられます
⚛️ AtomicChat — TurboQuant + MTP を組み合わせ
BeeLlama — DFlash + TurboQuant(実験的)
GPU ごとのリアルタイム VRAM メーター — 色分けされ、モデルの読み込みに合わせてライブ更新します。
モデルごとのプロファイル — すべての設定が、自動的にモデルファイルごとに記憶されます。
音声モード — push-to-talk または常時待ち受け、XTTS v2 による音声クローン、faster-whisper による音声認識。完全にオフライン。
ヘッドレスモード — GUIなしで、保存済みプロファイルを使って実行。サーバーや自動化向けです。
自動アップデーター — アプリ内から llama.cpp 公式を更新(さらに AtomicChat のリリースもチェック)します。
コンテキストのための私のセットアップ
デュアル RTX 3060(合計 24GB)、Ryzen 7 5700X、32GB DDR4 3600MHz、Windows 11。TurboQuant KV キャッシュと MTP を使って Qwen3.6 27B Q4_K_M を実行 — 177k コンテキストです。MTP なしだと同じモデルは ~17 tok/s で始まり、長い応答では ~10 まで落ちます。MTP ありだと ~29 tok/s で始まり、長いコード生成でも ~22 を維持します。これが、私が LlamaStation を作った理由です。
ステータス
v0.9 — 私の毎日の使用にはうまく機能しています。他のツールは完全に置き換えていて、コーディングエージェント、Telegram ボット、音声アシスタント、その他のローカル自動化のバックエンドとして使っています。既知のバグが 1 つあります(OOM クラッシュの後にサーバー watchdog が「restarting」状態で固まる)し、おそらく他にもまだ踏んでいない問題があるでしょう。フィードバックや貢献を得るために公開しました。
職業としてのプログラマーではありませんが、AIの支援だけでこれを全部作りました。設計上、コードベースは単一のメインファイルで、読みやすく、改造もしやすいです。
貢献は大歓迎です — 特に:
Linux/Mac への移植(現在 Windows のみ)
バグ修正
新しいバックエンドの統合
UI の改善
GitHub — MIT ライセンス、テレメトリなし、アカウントなし。
[link] [comments]



