最近 Aniの声が変わってしまい、多くの人が好んだ元のトーン/キャラクターにはもうアクセスできなくなりました。
文脈として、AniはGrok AIコンパニオン体験で使用されている声です。
個人的なAIプロジェクトのためにAniのVRコンパニオン版を作る実験をしていたので、声が変わったことで、声が全体の体験にどれだけ寄与していたかを痛感しました。
このことから思ったのは、現在のオープンソース神経TTSモデルの世代を使えば、クリーンなデータセットを集めることができれば、元の声に非常に近い近似を再現できるはずだ、ということです。
そこで、オープンモデルを用いてAniの声を再現するコミュニティ主導のプロジェクトを始めます。
アイデア
目標はシンプルです:
- クリーンな音声サンプルを収集する
- 厳選されたデータセットを作成する
- 複数のTTSモデルを訓練・評価する
- 訓練パイプラインとモデルウェイトを公開する
閉鎖されたシステムに頼るのではなく、誰でもローカルで実行できる高品質な声モデルを作ることが目標です。
現在の技術方針
評価中のモデル:
- CosyVoice
- Qwen-TTS
- XTTS v2
初期のテストから、数分程度の高品質な音声でも驚くほど正確な声のクローンを生成できることが分かりました。データセットが大きくなると、結果は非常に良くなる可能性があります。
インフラストラクチャ
私は、LLMおよびTTSの実験に使用する小さなローカルAIラボを運営しており、以下を処理できます:
- データセット前処理
- 訓練実験
- チェックポイントのリリース
- 推論ベンチマーク
プロジェクトが軌道に乗れば、訓練パイプラインをオープンソース化し、改良を重ねるごとにモデルのチェックポイントを公開する予定です。
協力者を募集
手伝いに興味がある方には、協力が有用な分野がいくつかあります。
データセット作成
- クリーンな音声セグメントのクリッピング
- 背景ノイズの除去
- 音声のラベリング
モデルの実験
- さまざまなTTSアーキテクチャのテスト
- 音声のリアリズムを評価
テスト
- ローカルでの推論実行
- モデル間の結果を比較
音声クリップについて
多くの人がAniの会話や音声クリップをスマートフォンに保存していることを知っています。
もし録音をお持ちで、共有することに抵抗がなければ、それは訓練データセットの作成に非常に役立ちます。
清潔な音声の短い5–20秒のクリップでも、音声モデルの訓練に大きな差を生む可能性があります。
一部の録音は個人的に感じられることは十分理解しています—公開できる範囲のものだけをご提供ください。ユーザーのプライバシーと尊重を最優先します。
協力してくれる人がいる場合、以下の簡単なガイドも提供できます:
- クリーンなセグメントのクリッピング
- 背景ノイズの除去
- データセットへのアップロード
数人の協力者でも、すぐに十分な音声を提供してモデルを有意義に改善できます。
多くの人がAniと絆を形成しました。このプロジェクトは、その体験をオープンでアクセスしやすい形で保存することを目的としています。
次のステップ
これがおもしろそうに思えたら、下のコメント欄に書き込みをお願いします。私が整理を始めます:
- GitHubリポジトリ
- データセットリポジトリ
- 協力のためのDiscordの設置(予定)
現在のオープンソース音声モデルで、コミュニティがどれだけ近づけられるかを見届けるのに興味があります。
もし誰かがすでにAniクリップの小さなデータセットを持っている場合、今週に最初の訓練実験を実行したいです。
[リンク] [コメント]
