医療音声でSTT 31モデルをベンチマーク—VibeVoice 9Bが新しいオープンソース首位（WER 8.34%）に、ただし大きくて遅い

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

更新された医療向け音声認識（STT）ベンチマークでは31のSTTモデルを評価し、オープンソース首位としてMicrosoft VibeVoice-ASR 9B（WER 8.34%）が選ばれました。Gemini 2.5 Pro（8.15%）とは非常に接近しています。
VibeVoice-ASR 9Bの精度は高い一方で導入コストも大きく、約18GBのVRAMが必要です（H100でのテスト）。また、ファイルあたりの処理時間は約97秒で、Parakeetのような高速なベースライン（約6秒）に比べて大幅に遅くなっています。
ベンチマークでは、評価対象として5つの新しいモデルが追加されています。ElevenLabs Scribe v2に加え、Voxtral/NVIDIAのストリーミング志向のオプションが複数含まれており、それぞれ精度とハードウェア適性の面で異なるトレードオフがあります。
最大の手法上の変更点は、WhisperのEnglishTextNormalizerのバグ修正です。「oh」を0として扱うといった問題や、一般的な医療用語の同義語の取りこぼしにより、WERがモデル全体で推定2〜3%分ほど不当に押し上げられていたとされています。
ベンチマークのコードと結果はすべてオープンソースとして公開されており、医療音声環境でのSTT性能を再現・比較できるようになっています。

I benchmarked 31 STT models on medical audio — VibeVoice 9B is the new open-source leader at 8.34% WER, but it's big and slow

TL;DR: 医療向けの音声認識（speech-to-text）ベンチマークのv3。モデルは31本に増えました（v2では26本）。Microsoft VibeVoice-ASR 9Bが8.34% WERでオープンソース勢の首位を奪取し、Gemini 2.5 Pro（8.15%）にもほぼ匹敵します。とはいえ9Bパラメータで、約18GBのVRAMが必要です（私は手軽にH100で回せたのでH100で実行しましたが、L4やそれに類するGPUでも動くはずです）。さらにH100でも遅く、Parakeetがファイルあたり6秒なのに対して97秒かかります。加えて、Whisperのテキスト正規化（normalizer）にバグが見つかり、すべてのモデルに対してWERが2〜3%膨らんでいました。全コード＋結果はオープンソースです。

前回までの投稿: v1 — 15 models | v2 — 26 models

v2から何が変わったか

5つの新モデルを追加（26 → 31）:

Microsoft VibeVoice-ASR 9B — 新しいオープンソースのリーダー（8.34% WER）ですが、約18GBのVRAMが必要です（T4には収まりません）。アクセスできたのでH100で実行しましたが、L4やA10でも動くはずです。H100でもファイルあたり97秒と遅めです。
ElevenLabs Scribe v2 — v1からの堅実なアップグレード（10.87% → 9.72%）
NVIDIA Nemotron Speech Streaming 0.6B — T4で11.06%の、そこそこ良い選択肢
Voxtral Mini 2602（Transcription API経由、11.64%）
Voxtral Mini 4B（vLLM realtime経由、H100で11.89%、T4で693秒— ストリーミング向けで、バッチ処理向けではありません）

また、LiquidAIのLFM2.5-Audio-1.5Bと、MetaのSeamlessM4T v2 Largeも評価しましたが、どちらもこのベンチマークには適していませんでした（詳細は後述のTakeawaysへ）。

Whisperのnormalizerを自作のものに置き換えました。 これはより大きな変更点です。WhisperのEnglishTextNormalizerに2つのバグを見つけました。これが静かにWERを押し上げていました：

"oh"がゼロとして扱われる — Whisperにはself.zeros = {"o", "oh", "zero"}があります。医療会話では"oh"は常に間投詞（例: "oh, my back hurts"）であり、数字ではありません。これだけで数千件の誤った置換（substitution）エラーが発生していました。
単語の同値関係が欠落 — ok/okay/k、yeah/yep/yes、mum/mom、alright/all right、kinda/kind of。Whisperはこれらを同じ形式に正規化しないため、あらゆるバリアントがエラーとしてカウントされます。

これらを合わせると、ALLモデルにわたってWERは約2〜3%膨らんでいました。v3の各スコアは、カスタムnormalizerで再計算されています。コードはevaluate/text_normalizer.pyにあります—差し替え（drop-in replacement）で、Whisperへの依存は不要です。

上位15のリーダーボード

データセット: PriMock57 — 55件の医師-患者の相談、英国英語の医療対話を約80K語分収録。

順位	モデル	WER	速度（平均/ファイル）	実行環境
1	Gemini 2.5 Pro	8.15%	56s	API
2	VibeVoice-ASR 9B	8.34%	97s	H100
3	Gemini 3 Pro Preview	8.35%	65s	API
4	Parakeet TDT 0.6B v3	9.35%	6s	Apple Silicon
5	Gemini 2.5 Flash	9.45%	20s	API
6	ElevenLabs Scribe v2	9.72%	44s	API
7	Parakeet TDT 0.6B v2	10.75%	5s	Apple Silicon
8	ElevenLabs Scribe v1	10.87%	36s	API
9	Nemotron Speech Streaming 0.6B	11.06%	12s	T4
10	GPT-4o Mini (2025-12-15)	11.18%	40s	API
11	Kyutai STT 2.6B	11.20%	148s	GPU
12	Gemini 3 Flash Preview	11.33%	52s	API
13	Voxtral Mini 2602 (Transcription API)	11.64%	18s	API
14	MLX Whisper Large v3 Turbo	11.65%	13s	Apple Silicon
15	Mistral Voxtral Mini	11.85%	22s	API

完全版の31モデルのリーダーボード（Granite、Phi-4、MedASRなどの下位半分も含む）は GitHub で公開しています。

重要なポイント

VibeVoiceは本物—ただし重くて遅い。 9Bパラメータで、医療音声においてGeminiクラスのクラウドAPIに本気で対抗できる最初のオープンソースモデルです。約18GBのVRAMが必要です（T4には収まりませんが、H100も必須ではありません—L4/A10なら動くはずです）。ただしH100でもファイルあたり97秒は、他のローカルモデルに比べて遅めです。

Parakeet TDT 0.6B v3が本当の“エッジ”の話。 Apple Silicon上で、ファイルあたり6秒でWER 9.35%。0.6Bモデルが9Bモデルに1%以内まで迫る。

ElevenLabs Scribe v2は意味のあるアップグレード。 v1（10.87%）から9.72%へ改善。Googleに行きたくない場合の最良のクラウドAPI選択肢です。

LFM AudioとSeamlessM4Tは選に漏れました。 LFM2.5-Audio-1.5Bは専用のASRモデルではなく、プロンプトによる“副次的な機能”として文字起こしを行う形です。推奨されている2秒チャンクだと、キーワード抽出が疎（1400語の会話から約74語）になります。さらに長いチャンクだと、幻覚ループ（hallucination loops）が発生します。SeamlessM4Tは翻訳モデルで、音声を逐語的に文字起こしするのではなく、音声を要約しました（約1400語のうち約677語）。どちらも長尺の文字起こしには適していません。

Normalizerの注意喚起

Whisperのnormalizerを使って会話音声のWERベンチマークを回しているなら、たぶん数値が水増しされています。「oh」のバグだけでも、自然な発話を含む音声すべてに影響します。カスタムnormalizerはMITライセンスで、whisperパッケージへの依存はゼロです。リポジトリから取得してください。

リンク: