医療音声でSTT 31モデルをベンチマーク—VibeVoice 9Bが新しいオープンソース首位(WER 8.34%)に、ただし大きくて遅い

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 更新された医療向け音声認識(STT)ベンチマークでは31のSTTモデルを評価し、オープンソース首位としてMicrosoft VibeVoice-ASR 9B(WER 8.34%)が選ばれました。Gemini 2.5 Pro(8.15%)とは非常に接近しています。
  • VibeVoice-ASR 9Bの精度は高い一方で導入コストも大きく、約18GBのVRAMが必要です(H100でのテスト)。また、ファイルあたりの処理時間は約97秒で、Parakeetのような高速なベースライン(約6秒)に比べて大幅に遅くなっています。
  • ベンチマークでは、評価対象として5つの新しいモデルが追加されています。ElevenLabs Scribe v2に加え、Voxtral/NVIDIAのストリーミング志向のオプションが複数含まれており、それぞれ精度とハードウェア適性の面で異なるトレードオフがあります。
  • 最大の手法上の変更点は、WhisperのEnglishTextNormalizerのバグ修正です。「oh」を0として扱うといった問題や、一般的な医療用語の同義語の取りこぼしにより、WERがモデル全体で推定2〜3%分ほど不当に押し上げられていたとされています。
  • ベンチマークのコードと結果はすべてオープンソースとして公開されており、医療音声環境でのSTT性能を再現・比較できるようになっています。
I benchmarked 31 STT models on medical audio — VibeVoice 9B is the new open-source leader at 8.34% WER, but it's big and slow

TL;DR: 医療向けの音声認識(speech-to-text)ベンチマークのv3。モデルは31本に増えました(v2では26本)。Microsoft VibeVoice-ASR 9Bが8.34% WERでオープンソース勢の首位を奪取し、Gemini 2.5 Pro(8.15%)にもほぼ匹敵します。とはいえ9Bパラメータで、約18GBのVRAMが必要です(私は手軽にH100で回せたのでH100で実行しましたが、L4やそれに類するGPUでも動くはずです)。さらにH100でも遅く、Parakeetがファイルあたり6秒なのに対して97秒かかります。加えて、Whisperのテキスト正規化(normalizer)にバグが見つかり、すべてのモデルに対してWERが2〜3%膨らんでいました。全コード+結果はオープンソースです。

前回までの投稿: v1 — 15 models | v2 — 26 models

v2から何が変わったか

5つの新モデルを追加(26 → 31):

  • Microsoft VibeVoice-ASR 9B — 新しいオープンソースのリーダー(8.34% WER)ですが、約18GBのVRAMが必要です(T4には収まりません)。アクセスできたのでH100で実行しましたが、L4やA10でも動くはずです。H100でもファイルあたり97秒と遅めです。
  • ElevenLabs Scribe v2 — v1からの堅実なアップグレード(10.87% → 9.72%)
  • NVIDIA Nemotron Speech Streaming 0.6B — T4で11.06%の、そこそこ良い選択肢
  • Voxtral Mini 2602(Transcription API経由、11.64%)
  • Voxtral Mini 4B(vLLM realtime経由、H100で11.89%、T4で693秒— ストリーミング向けで、バッチ処理向けではありません)

また、LiquidAIのLFM2.5-Audio-1.5Bと、MetaのSeamlessM4T v2 Largeも評価しましたが、どちらもこのベンチマークには適していませんでした(詳細は後述のTakeawaysへ)。

Whisperのnormalizerを自作のものに置き換えました。 これはより大きな変更点です。WhisperのEnglishTextNormalizerに2つのバグを見つけました。これが静かにWERを押し上げていました:

  1. "oh"がゼロとして扱われる — Whisperにはself.zeros = {"o", "oh", "zero"}があります。医療会話では"oh"は常に間投詞(例: "oh, my back hurts")であり、数字ではありません。これだけで数千件の誤った置換(substitution)エラーが発生していました。
  2. 単語の同値関係が欠落 — ok/okay/k、yeah/yep/yes、mum/mom、alright/all right、kinda/kind of。Whisperはこれらを同じ形式に正規化しないため、あらゆるバリアントがエラーとしてカウントされます。

これらを合わせると、ALLモデルにわたってWERは約2〜3%膨らんでいました。v3の各スコアは、カスタムnormalizerで再計算されています。コードはevaluate/text_normalizer.pyにあります—差し替え(drop-in replacement)で、Whisperへの依存は不要です。

上位15のリーダーボード

データセット: PriMock57 — 55件の医師-患者の相談、英国英語の医療対話を約80K語分収録。

順位 モデル WER 速度(平均/ファイル) 実行環境
1 Gemini 2.5 Pro 8.15% 56s API
2 VibeVoice-ASR 9B 8.34% 97s H100
3 Gemini 3 Pro Preview 8.35% 65s API
4 Parakeet TDT 0.6B v3 9.35% 6s Apple Silicon
5 Gemini 2.5 Flash 9.45% 20s API
6 ElevenLabs Scribe v2 9.72% 44s API
7 Parakeet TDT 0.6B v2 10.75% 5s Apple Silicon
8 ElevenLabs Scribe v1 10.87% 36s API
9 Nemotron Speech Streaming 0.6B 11.06% 12s T4
10 GPT-4o Mini (2025-12-15) 11.18% 40s API
11 Kyutai STT 2.6B 11.20% 148s GPU
12 Gemini 3 Flash Preview 11.33% 52s API
13 Voxtral Mini 2602 (Transcription API) 11.64% 18s API
14 MLX Whisper Large v3 Turbo 11.65% 13s Apple Silicon
15 Mistral Voxtral Mini 11.85% 22s API

完全版の31モデルのリーダーボード(Granite、Phi-4、MedASRなどの下位半分も含む)は GitHub で公開しています。

重要なポイント

VibeVoiceは本物—ただし重くて遅い。 9Bパラメータで、医療音声においてGeminiクラスのクラウドAPIに本気で対抗できる最初のオープンソースモデルです。約18GBのVRAMが必要です(T4には収まりませんが、H100も必須ではありません—L4/A10なら動くはずです)。ただしH100でもファイルあたり97秒は、他のローカルモデルに比べて遅めです。

Parakeet TDT 0.6B v3が本当の“エッジ”の話。 Apple Silicon上で、ファイルあたり6秒でWER 9.35%。0.6Bモデルが9Bモデルに1%以内まで迫る。

ElevenLabs Scribe v2は意味のあるアップグレード。 v1(10.87%)から9.72%へ改善。Googleに行きたくない場合の最良のクラウドAPI選択肢です。

LFM AudioとSeamlessM4Tは選に漏れました。 LFM2.5-Audio-1.5Bは専用のASRモデルではなく、プロンプトによる“副次的な機能”として文字起こしを行う形です。推奨されている2秒チャンクだと、キーワード抽出が疎(1400語の会話から約74語)になります。さらに長いチャンクだと、幻覚ループ(hallucination loops)が発生します。SeamlessM4Tは翻訳モデルで、音声を逐語的に文字起こしするのではなく、音声を要約しました(約1400語のうち約677語)。どちらも長尺の文字起こしには適していません。

Normalizerの注意喚起

Whisperのnormalizerを使って会話音声のWERベンチマークを回しているなら、たぶん数値が水増しされています。「oh」のバグだけでも、自然な発話を含む音声すべてに影響します。カスタムnormalizerはMITライセンスで、whisperパッケージへの依存はゼロです。リポジトリから取得してください。

リンク:

  • すべての評価コード、トランスクリプト、および指標はオープンソースです
  • /u/MajesticAd2862 によって送信されました
    [リンク] [コメント]