5GB VRAMピークの小型TTSモデルを21GPUでベンチマーク

Reddit r/LocalLLaMA / 2026/5/19

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • vast.aiで21種類のレンタルGPUを用い、小型TTSモデル「OmniVoice」をベンチマークし、ピークVRAM使用量がおよそ5GBに収まることを確認した。
  • xRT(times real-time)という指標で、3回の短文生成テスト(音声クローンを含む)を平均し、各GPUの音声生成速度をユーザーのRTX 3090と比較している。
  • 分析は網羅的・科学的というより簡易的な比較で、各構成は3回測定に基づくラフな目安として提示されている。
  • 目的は、主にコンシューマー向けGPUがTTS用途でどれだけ処理性能を出せるか(速度とメモリ余力)を推定することにある。
21 GPU's benchmarked running a small TTS model (vram peak: 5GB)

vast.aiで、少しずつ異なるGPUをそれぞれ数分間レンタルして、小型TTSモデルであるOmniVoiceのベンチマークを行いました。ピークVRAM使用量は約5GBでした。これらの主にコンシューマ向けGPUが、私自身のRTX 3090と比べてどの程度の性能差があるのかを見たかったのです。

これは決して網羅的、または科学的な分析ではありませんが、これらのGPU同士が互いに比べてどれくらいの性能を出すのか、おおよその目安は示していると思います。

xRTはリアルタイムの何倍かを意味します。GPUがリアルタイムよりもどれだけ速く音声を生成できるかを示します。参照音声が提供された小さな段落の3回の実行結果の平均(ボイスクローニング)です。

以下に投稿者: /u/urarthur
[link] [comments]