Kokoro TTSトレーナーを大幅に改善しました

Reddit r/LocalLLaMA / 2026/4/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

この記事では、ローカル環境で動かしているユーザーにとって、カスタム音声のトレーニングをより実用的にすることを目的として、Kokoro TTSのトレーニングワークフローに大幅な改善を加えたことが説明されています。
著者らは、既存のCPUベースの学習ツール（KVoiceWalk）を新しいプロジェクトとしてフォークし、GPU/CUDA対応を追加することでトレーニングを大幅に高速化しました。
NVIDIA RTX 3060での結果として、更新された手法ではCPU学習と比べて約6.5倍の速度向上が得られると報告されています。
複数の音声をより簡単に学習できるように、キュー（待ち行列）システムを含む新しいGUIが追加されました。
著者らは、今後数日以内に、自作のカスタム音声を使ったTTS出力をSteamゲームを通じて公開または配布するとも述べています。

Kokoro はかなり人気のツールです。もちろん理由があります。デスクトップや携帯のCPUで動かせます。私たち自身もかなり役に立つと感じましたが、問題が1つだけありました――カスタム音声の学習です。これを解決してくれるすごいツールが KVoiceWalk でした。問題は1つだけで、それはCPUでしか動かなかったことです。1つの音声を学習するのに約26時間かかりました。そこで大幅に改善しました。

こちらでフォークしました―― https://github.com/BovineOverlord/kvoicewalk-with-GPU-CUDA-and-GUI-queue-system

ご覧のとおり、ツールにGPU/CUDAの対応を追加しました。結果は、3060で6.5倍高速でした。また、使いやすくするためのGUIも作成しました。これには複数の音声を学習するためのキュー（待ち行列）システムが含まれます。

コミュニティの役に立てばうれしいです。これから数日で、自分たちのカスタム音声と一緒に、このTTSをゲームに追加する予定です。質問があれば教えてください！

投稿者: /u/TurtletopSoftware
[link] [comments]