こんにちは、皆さん。
最近 Qwen3-TTS の新しいモデルで作業していて、ベースモデル自体はとても良い一方で、多くの人にとって微調整(ファインチューニング)のプロセスが少し頭の痛いものになり得ると気づきました。そこで、 Qwen3-TTS-EasyFinetuning を作成しました。
これは、コマンドラインに慣れていなくても、できるだけスムーズにファインチューニングできるよう設計された、オープンソースのWebUIです。
主な機能: * 使いやすいWebUI: ブラウザから、ファインチューニングのワークフロー全体を管理できます。 * マルチスピーカー対応:(一部の公式実装より先に)マルチスピーカー機能を実装しました。さまざまなボイスセットを学習できます。 * 合理化されたパイプライン: データ処理から学習、推論のテストまで、すべてを扱います。 * ローカル重視: r/LocalLlama の思想に合うよう、あなた自身のハードウェア上で動作することを前提に設計されています。
技術スタック: * Qwen3-TTS をベースにしています * Python/Gradio で構築 * 一般向けGPU向けに最適化(RTX3080 10Gでテスト済み)
私はまだこのプロジェクトを積極的に開発中で、このコミュニティからのフィードバックもぜひいただきたいです。ローカルのLLMにカスタムボイスを与えたいと考えているなら、ぜひ試してみてください!
GitHub: https://github.com/mozi1924/Qwen3-TTS-EasyFinetuning
[リンク] [コメント]




