| 私が作ったものです。音声認識(speech-to-text)と音声合成(text-to-speech)のインターフェースを使った会話型LLMチャットボットです。設計目標は、リソースに制約のある環境でも最大限の会話のリアリティと没入感を実現することでした。 このデモでは、すべてが1つの RTX 3080 Mobile GPU(合計16 GBのVRAM)で動作しています。システムRAMの使用量は最小限で、Python依存関係もありません。すべてのコンポーネントは速度のためにC++で作られています。 コンポーネントは以下を含みます: 1) Qwen3.5-9B UD-Q6_K_XL(GGUF)— GGML.orgのwhisper.cppからのtalk-llama.cppの(わずかに)カスタマイズ版で動作するLLM。カスタマイズとして、KVキャッシュの量子化レベルを設定できる機能に加え、テキスト生成を最適化するための追加のQwen3.5生成パラメータ(repeat-penalty, presence-penalty)があります。コンテキストは49152トークンで、会話のターンを数時間分行うのに十分です。 ユーザーの音声入力からシステムの音声出力までのレイテンシは、システムがより長いテキストブロックを生成するときにはまだやや高めですが、それでも2021年にリリースされたGPUとしてはかなり良い部類です(!)。 [link] [comments] |
最近は古いモバイルGPUでもかなりのことができる
Reddit r/LocalLLaMA / 2026/3/26
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- 開発者が、単一のRTX 3080 Mobile(16GB VRAM)上で動作する、完全ローカルの会話型LLMチャットボット(音声認識→LLM→テキスト読み上げ)を実演します。最小限のシステムRAM使用で、かつPythonへの依存はありません。
- 構成は、対話生成にQwen 3.5 9Bを使用し(カスタムの talk-llama.cpp によりKVキャッシュの量子化を設定可能)、音声認識にはWhisper-small、感情表現を伴うテキスト読み上げにはOrpheus-3B-finetunedを組み合わせています。
- TTSトークンを効率よく音声へ変換するために、ONNX Runtimeを介して最適化されたSNACデコーダを利用するカスタムC++ツールが用いられます。これにより、音声をチャンク(断片)生成してRAMから直接ストリーミング再生できるようにしています。
- このデモは、豊富なA/Bテスト済みのシステムプロンプトと調整された生成パラメータによって、会話のリアリティ最大化を狙っています。2021年当時の古いモバイルGPUを使っているにもかかわらず、妥当なレイテンシを達成しています。
- 全体として、この投稿は、量子化、C++実装、そして実行時の密な統合によって、現代のローカルAIボイスアシスタントが古い一般向けGPU環境でも現実的になりつつあることを示唆しています。