ゲームの字幕を読み取り、動的な声優（OCR → TTS → RVC）に変換するリアルタイム・パイプラインを作った [P]

Reddit r/MachineLearning / 2026/3/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

この投稿では、デスクトップ上で動作するリアルタイムのパイプラインを紹介し、画面上のゲーム字幕をOCRで取得し、TTSでテキストを音声に変換した後、RVCによって文字ごとのボイス変換を適用します。

私は OCR + TTS + ボイス変換を組み合わせたリアルタイム・パイプラインをいろいろ試していて、その結果、ゲームの字幕を動的に「音声化」できるデスクトップアプリを作りました。

発想はシンプルです。 - 画面から字幕を取得する（OCR） - それを音声に変換する（TTS） - キャラクターごとに声を変換する（RVC）

しかし難しかったのは次の点です。 - 同じ字幕のスパムの繰り返しを避ける（類似度フィルタリング） - レイテンシを低く保つ（約0.3秒） - 再読み込みなしで、異なる声のモデルを持つ複数のキャラクターに対応する - すべてをスムーズなパイプラインとして動かす（音声の途切れなし）

大きく役立ったのは、2段階のパイプラインを使うことでした。1文が再生されている間に、次の文はすでにバックグラウンドで処理します。

また、次のことも試しました。 - 感情に基づく音声の変化 - リアルタイム翻訳（EN → TR） - オーディオダッキング（発話中にゲーム音を下げる）

気になっています：このようなマルチモデル構成で、さらにレイテンシを下げるにはあなたならどうアプローチしますか？それとも、リアルタイムのキャラクター音声変換として、RVCより良い代替案はありますか？

興味がある方には、もっと技術的な詳細も共有できます。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH