ゲームの字幕を読み取り、動的な声優(OCR → TTS → RVC)に変換するリアルタイム・パイプラインを作った [P]

Reddit r/MachineLearning / 2026/3/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • この投稿では、デスクトップ上で動作するリアルタイムのパイプラインを紹介し、画面上のゲーム字幕をOCRで取得し、TTSでテキストを音声に変換した後、RVCによって文字ごとのボイス変換を適用します。

私は OCR + TTS + ボイス変換を組み合わせたリアルタイム・パイプラインをいろいろ試していて、その結果、ゲームの字幕を動的に「音声化」できるデスクトップアプリを作りました。

発想はシンプルです。 - 画面から字幕を取得する(OCR) - それを音声に変換する(TTS) - キャラクターごとに声を変換する(RVC)

しかし難しかったのは次の点です。 - 同じ字幕のスパムの繰り返しを避ける(類似度フィルタリング) - レイテンシを低く保つ(約0.3秒) - 再読み込みなしで、異なる声のモデルを持つ複数のキャラクターに対応する - すべてをスムーズなパイプラインとして動かす(音声の途切れなし)

大きく役立ったのは、2段階のパイプラインを使うことでした。1文が再生されている間に、次の文はすでにバックグラウンドで処理します。

また、次のことも試しました。 - 感情に基づく音声の変化 - リアルタイム翻訳(EN → TR) - オーディオダッキング(発話中にゲーム音を下げる)

気になっています:このようなマルチモデル構成で、さらにレイテンシを下げるにはあなたならどうアプローチしますか? それとも、リアルタイムのキャラクター音声変換として、RVCより良い代替案はありますか?

興味がある方には、もっと技術的な詳細も共有できます。

によって投稿 /u/fqtih0
[リンク] [コメント]