| Kokoro はかなり人気のツールです。もちろん理由があります。デスクトップや携帯のCPUで動かせます。私たち自身もかなり役に立つと感じましたが、問題が1つだけありました――カスタム音声の学習です。これを解決してくれるすごいツールが KVoiceWalk でした。問題は1つだけで、それはCPUでしか動かなかったことです。1つの音声を学習するのに約26時間かかりました。そこで大幅に改善しました。 こちらでフォークしました―― https://github.com/BovineOverlord/kvoicewalk-with-GPU-CUDA-and-GUI-queue-system ご覧のとおり、ツールにGPU/CUDAの対応を追加しました。結果は、3060で6.5倍高速でした。また、使いやすくするためのGUIも作成しました。これには複数の音声を学習するためのキュー(待ち行列)システムが含まれます。 コミュニティの役に立てばうれしいです。これから数日で、自分たちのカスタム音声と一緒に、このTTSを ゲーム に追加する予定です。質問があれば教えてください! [link] [comments] |
Kokoro TTSトレーナーを大幅に改善しました
Reddit r/LocalLLaMA / 2026/4/6
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- この記事では、ローカル環境で動かしているユーザーにとって、カスタム音声のトレーニングをより実用的にすることを目的として、Kokoro TTSのトレーニングワークフローに大幅な改善を加えたことが説明されています。
- 著者らは、既存のCPUベースの学習ツール(KVoiceWalk)を新しいプロジェクトとしてフォークし、GPU/CUDA対応を追加することでトレーニングを大幅に高速化しました。
- NVIDIA RTX 3060での結果として、更新された手法ではCPU学習と比べて約6.5倍の速度向上が得られると報告されています。
- 複数の音声をより簡単に学習できるように、キュー(待ち行列)システムを含む新しいGUIが追加されました。
- 著者らは、今後数日以内に、自作のカスタム音声を使ったTTS出力をSteamゲームを通じて公開または配布するとも述べています。




