私は OCR + TTS + ボイス変換を組み合わせたリアルタイム・パイプラインをいろいろ試していて、その結果、ゲームの字幕を動的に「音声化」できるデスクトップアプリを作りました。
発想はシンプルです。 - 画面から字幕を取得する(OCR) - それを音声に変換する(TTS) - キャラクターごとに声を変換する(RVC)
しかし難しかったのは次の点です。 - 同じ字幕のスパムの繰り返しを避ける(類似度フィルタリング) - レイテンシを低く保つ(約0.3秒) - 再読み込みなしで、異なる声のモデルを持つ複数のキャラクターに対応する - すべてをスムーズなパイプラインとして動かす(音声の途切れなし)
大きく役立ったのは、2段階のパイプラインを使うことでした。1文が再生されている間に、次の文はすでにバックグラウンドで処理します。
また、次のことも試しました。 - 感情に基づく音声の変化 - リアルタイム翻訳(EN → TR) - オーディオダッキング(発話中にゲーム音を下げる)
気になっています:このようなマルチモデル構成で、さらにレイテンシを下げるにはあなたならどうアプローチしますか? それとも、リアルタイムのキャラクター音声変換として、RVCより良い代替案はありますか?
興味がある方には、もっと技術的な詳細も共有できます。
[リンク] [コメント]