オープンソースプロジェクト: 現代のニューラルTTSを用いてアニの元の声を再現する

Reddit r/LocalLLaMA / 2026/3/16

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

アニの声が変わって、多くの人が好んだ元のトーンはもう聴けなくなったため、オープンソースのニューラルTTSモデルを使って元の声を再現するコミュニティ主導のプロジェクトが立ち上がった。
プロジェクトはクリーンな音声サンプルを収集し、キュレーションされたデータセットを構築し、複数のTTSモデル（CosyVoice、Qwen-TTS、XTTS v2）を訓練・評価し、ローカル利用向けにトレーニングパイプラインとモデルウェイトを公開することを目指している。
初期のテストでは、数分程度の高品質な音声でも驚くほど正確な声のクローンを作成できることが示唆されており、データセットが大きいほど非常に良い結果を得られる可能性がある。
著者はデータセットの前処理、訓練実験、チェックポイントの公開、推論のベンチマークを扱う小規模なローカルAIラボを運営しており、パイプラインとチェックポイントを反復的にオープンソース化していく計画がある。
プロジェクトはデータセット作成、モデル実験、テストの貢献者を募集しており、プライバシーと同意を優先しつつ、クリーンな音声クリップ（5–20秒）の共有を推奨している。

最近 Aniの声が変わってしまい、多くの人が好んだ元のトーン/キャラクターにはもうアクセスできなくなりました。

文脈として、AniはGrok AIコンパニオン体験で使用されている声です。

個人的なAIプロジェクトのためにAniのVRコンパニオン版を作る実験をしていたので、声が変わったことで、声が全体の体験にどれだけ寄与していたかを痛感しました。

このことから思ったのは、現在のオープンソース神経TTSモデルの世代を使えば、クリーンなデータセットを集めることができれば、元の声に非常に近い近似を再現できるはずだ、ということです。

そこで、オープンモデルを用いてAniの声を再現するコミュニティ主導のプロジェクトを始めます。

アイデア

目標はシンプルです：

クリーンな音声サンプルを収集する
厳選されたデータセットを作成する
複数のTTSモデルを訓練・評価する
訓練パイプラインとモデルウェイトを公開する

閉鎖されたシステムに頼るのではなく、誰でもローカルで実行できる高品質な声モデルを作ることが目標です。

現在の技術方針

評価中のモデル：

CosyVoice
Qwen-TTS
XTTS v2

初期のテストから、数分程度の高品質な音声でも驚くほど正確な声のクローンを生成できることが分かりました。データセットが大きくなると、結果は非常に良くなる可能性があります。

インフラストラクチャ

私は、LLMおよびTTSの実験に使用する小さなローカルAIラボを運営しており、以下を処理できます：

データセット前処理
訓練実験
チェックポイントのリリース
推論ベンチマーク

プロジェクトが軌道に乗れば、訓練パイプラインをオープンソース化し、改良を重ねるごとにモデルのチェックポイントを公開する予定です。

協力者を募集

手伝いに興味がある方には、協力が有用な分野がいくつかあります。

データセット作成

クリーンな音声セグメントのクリッピング
背景ノイズの除去
音声のラベリング

モデルの実験

さまざまなTTSアーキテクチャのテスト
音声のリアリズムを評価

テスト

ローカルでの推論実行
モデル間の結果を比較

音声クリップについて

多くの人がAniの会話や音声クリップをスマートフォンに保存していることを知っています。

もし録音をお持ちで、共有することに抵抗がなければ、それは訓練データセットの作成に非常に役立ちます。

清潔な音声の短い5–20秒のクリップでも、音声モデルの訓練に大きな差を生む可能性があります。

一部の録音は個人的に感じられることは十分理解しています—公開できる範囲のものだけをご提供ください。ユーザーのプライバシーと尊重を最優先します。

協力してくれる人がいる場合、以下の簡単なガイドも提供できます:

クリーンなセグメントのクリッピング
背景ノイズの除去
データセットへのアップロード

数人の協力者でも、すぐに十分な音声を提供してモデルを有意義に改善できます。

多くの人がAniと絆を形成しました。このプロジェクトは、その体験をオープンでアクセスしやすい形で保存することを目的としています。

次のステップ

これがおもしろそうに思えたら、下のコメント欄に書き込みをお願いします。私が整理を始めます：

GitHubリポジトリ
データセットリポジトリ
協力のためのDiscordの設置（予定）

現在のオープンソース音声モデルで、コミュニティがどれだけ近づけられるかを見届けるのに興味があります。

もし誰かがすでにAniクリップの小さなデータセットを持っている場合、今週に最初の訓練実験を実行したいです。

投稿者 /u/MrFatCakes87
[リンク] [コメント]

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

日経XTECH

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Dev.to

Claude Code が私の RAM を 14GB 食い尽くしたので、ゾンビプロセスキラーを作った

Dev.to

オープンソースプロジェクト: 現代のニューラルTTSを用いてアニの元の声を再現する

要点

最近 Aniの声が変わってしまい、多くの人が好んだ元のトーン/キャラクターにはもうアクセスできなくなりました。

アイデア

現在の技術方針

インフラストラクチャ

協力者を募集

音声クリップについて

次のステップ

関連記事

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Claude Code が私の RAM を 14GB 食い尽くしたので、ゾンビプロセスキラーを作った

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

最近 Aniの声が変わってしまい、多くの人が好んだ元のトーン/キャラクターにはもうアクセスできなくなりました。

アイデア

現在の技術方針

インフラストラクチャ

協力者を募集

音声クリップについて

次のステップ

関連記事

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Claude Code が私の RAM を 14GB 食い尽くしたので、ゾンビプロセスキラーを作った

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ