Kokoro TTSトレーナーを大幅に改善しました

Reddit r/LocalLLaMA / 2026/4/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • この記事では、ローカル環境で動かしているユーザーにとって、カスタム音声のトレーニングをより実用的にすることを目的として、Kokoro TTSのトレーニングワークフローに大幅な改善を加えたことが説明されています。
  • 著者らは、既存のCPUベースの学習ツール(KVoiceWalk)を新しいプロジェクトとしてフォークし、GPU/CUDA対応を追加することでトレーニングを大幅に高速化しました。
  • NVIDIA RTX 3060での結果として、更新された手法ではCPU学習と比べて約6.5倍の速度向上が得られると報告されています。
  • 複数の音声をより簡単に学習できるように、キュー(待ち行列)システムを含む新しいGUIが追加されました。
  • 著者らは、今後数日以内に、自作のカスタム音声を使ったTTS出力をSteamゲームを通じて公開または配布するとも述べています。
Kokoro TTSトレーナーを大幅に改善しました

Kokoro はかなり人気のツールです。もちろん理由があります。デスクトップや携帯のCPUで動かせます。私たち自身もかなり役に立つと感じましたが、問題が1つだけありました――カスタム音声の学習です。これを解決してくれるすごいツールが KVoiceWalk でした。問題は1つだけで、それはCPUでしか動かなかったことです。1つの音声を学習するのに約26時間かかりました。そこで大幅に改善しました。

こちらでフォークしました―― https://github.com/BovineOverlord/kvoicewalk-with-GPU-CUDA-and-GUI-queue-system

ご覧のとおり、ツールにGPU/CUDAの対応を追加しました。結果は、3060で6.5倍高速でした。また、使いやすくするためのGUIも作成しました。これには複数の音声を学習するためのキュー(待ち行列)システムが含まれます。

コミュニティの役に立てばうれしいです。これから数日で、自分たちのカスタム音声と一緒に、このTTSを ゲーム に追加する予定です。質問があれば教えてください!

投稿者: /u/TurtletopSoftware
[link] [comments]