新しい「Medical WER(M-WER)」指標で医療音声の42のSTTモデルをベンチマークしたところ、リーダーボードの順位が完全に入れ替わった

Reddit r/LocalLLaMA / 2026/4/10

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 医療向けの音声認識ベンチマークを31モデルから42モデルへ更新し、臨床に焦点を当てた「Medical WER(M-WER)」に加えて薬剤のみを対象とする「Drug M-WER」を導入することで、患者安全への関連性をより適切に反映する。
  • 通常のWERはフィラーや重要度の低い単語を過大に評価し、すべてのトークンを等価に扱うため、新しい指標は臨床的に関連する参照トークンのみを再スコアリングすることを説明する。
  • リーダーボードの順位が大きく変わったことを報告している。VibeVoice-ASR 9BはM-WERで#3へ上昇する一方、Parakeet TDT 0.6B v3は薬剤名の性能が主な要因となって#31へ下落した。
  • M-WERのもとでは、小型のローカルモデルとクラウドAPIの双方が競争力を維持していることを強調している。Qwen3-ASR 1.7Bは良好な結果を示し、Soniox、AssemblyAI、Deepgramのようなベンダーも上位にランクインしている。
  • コード、書き起こし(transcripts)、ファイルごとの指標、完全なリーダーボードがGitHubでオープンソースとして公開されており、他者が評価を再現し拡張できることを述べている。
新しい Medical WER(M-WER)指標で医療音声に対して42のSTTモデルをベンチマークしたところ、順位表が完全に組み替わりました

TL;DR: 医療音声の音声認識(speech-to-text)ベンチマークを42モデル(v3の31から増加)に更新し、新しい指標Medical WER(M-WER)を追加しました。

標準のWERはすべての単語を同等に扱います。しかし医療音声ではそれがほとんど意味をなしません――「yeah」と「アモキシシリン」では重要度が同じではありません

そこでv4では、ベンチマークを臨床的に関連のある単語だけで再採点しました。具体的には、薬、疾患、症状、解剖、そして臨床手技です。また、患者安全のリスクが本当の意味で顕在化するのは薬の名前のところなので、Drug M-WERも別枠で切り出しました。

この変更により、順位表は大きく並び替えられました。

注目すべき結果をいくつか:

  • VibeVoice-ASR 9B は M-WER で#3にランクインし、Microsoft の新しいクローズド版MAI-Transcribe-1#11)を上回ります
  • Parakeet TDT 0.6B v3 は、全体のWERでの好位置から、薬の名前の性能が弱いために M-WER で#31まで下がりました
  • Qwen3-ASR 1.7B は今回の最も面白い小型ローカルモデルです:4.40% M-WER、そしてA10で約7秒/ファイル
  • クラウドAPIは想像以上に強かったです:Soniox、AssemblyAI Universal-3 Pro、Deepgram Nova-3 Medicalはいずれも、実際に競争力のある水準に収まりました

すべてのコード、文字起こし(transcripts)、ファイルごとの指標、そして完全な順位表はGitHubでオープンソースです。

前回までの投稿v1 · v2 · v3

v3以降で何が変わったか

1. 新しい主要指標:Medical WER(M-WER)

標準WERは依然として有用ですが、医師と患者の会話では誤ったものに過度な重みがかかります。聞き漏らしたフィラー語も、聞き漏らした薬の名前も、どちらも1つのエラーとして数えられます――たとえ臨床的に重要なのはおそらく片方だけであっても。

そこでv4では次を追加しました:

  • M-WER = 医学的に関連のある参照トークンのみに対して計算したWER
  • Drug M-WER = 同じ考え方ですが、薬の名前だけに限定

現在の語彙は、5つのカテゴリにまたがって179語をカバーしています:

  • drugs(薬)
  • conditions(疾患)
  • symptoms(症状)
  • anatomy(解剖)
  • clinical procedures(臨床手技)

順位の組み替えは本物です。Parakeet TDT 0.6B v3 は v3 の通常WERでは非常に良さそうに見えましたが、M-WERでは#31まで落ちます。そして22% Drug M-WERとなります。会話のつなぎは得意でも、実際に臨床的な意味を運ぶ語に対しては大きく弱いのです。

2. 新たに11モデル追加(31 → 42)

今回のラウンドでは、非常に有力な新規候補が多数追加されました:

  • Soniox stt-async-v4 → M-WER で#4
  • AssemblyAI Universal-3 Prodomain: medical-v1)→ #7
  • Deepgram Nova-3 Medical#9
  • Microsoft MAI-Transcribe-1#11
  • Qwen3-ASR 1.7B#8、今回のベストな小型オープンソースモデル
  • Cohere Transcribe(2026年3月)#18、非常に高速
  • Parakeet TDT 1.1B#15
  • Facebook MMS-1B-all#42、このデータセットで最下位

さらに、Multitalker Parakeet 0.6BcpWERで評価するマルチ話者トラックも別途追加しました。共同のASR+話者ダイアライゼーションは別の評価問題だからです。

Medical WER上位20

データセット:PriMock57 ― 55件の医師-患者の相談(doctor-patient consultations)。約80K語のイギリス英語の医療対話。

# Model WER M-WER Drug M-WER Speed Host
1 Google Gemini 3 Pro Preview 8.35% 2.65% 3.1% 64.5s API
2 Google Gemini 2.5 Pro 8.15% 2.97% 4.1% 56.4s API
3 VibeVoice-ASR 9B(Microsoft、オープンソース) 8.34% 3.16% 5.6% 96.7s H100
4 Soniox stt-async-v4 9.18% 3.32% 7.1% 46.2s API
5 Google Gemini 3 Flash Preview 11.33% 3.64% 5.2% 51.5s API
6 ElevenLabs Scribe v2 9.72% 3.86% 4.3% 43.5s API
7 AssemblyAI Universal-3 Pro(medical-v1) 9.55% 4.02% 6.5% 37.3s API
8 Qwen3 ASR 1.7B(オープンソース) 9.00% 4.40% 8.6% 6.8s A10
9 Deepgram Nova-3 Medical 9.05% 4.53% 9.7% 12.9s API
10 OpenAI GPT-4o Mini Transcribe(2025年12月) 11.18% 4.85% 10.6% 40.4s API
11 Microsoft MAI-Transcribe-1 11.52% 4.85% 11.2% 21.8s API
12 ElevenLabs Scribe v1 10.87% 4.88% 7.5% 36.3s API
13 Google Gemini 2.5 Flash 9.45% 5.01% 10.3% 20.2s API
14 Voxtral Mini Transcribe V1 11.85% 5.17% 11.0% 22.4s API
15 Parakeet TDT 1.1B 9.03% 5.20% 15.5% 12.3s T4
16 Voxtral Mini Transcribe V2 11.64% 5.36% 12.1% 18.4s API
17 Voxtral Mini 4B Realtime 11.89% 5.39% 11.8% 270.9s A10
18 Cohere Transcribe (2026年3月) 11.81% 5.59% 16.6% 3.9s A10
19 OpenAI Whisper-1 13.20% 5.62% 10.3% 104.3s API
20 Groq Whisper Large v3 Turbo 12.14% 5.75% 14.4% 8.0s API

GitHubで、完全な42モデルのリーダーボードを公開しています。

おもしろいところ:Microsoft vs Microsoft

今回のこのベンチマークでは、Microsoftには見えるSTT提供が2つあります:

  • VibeVoice-ASR 9B — オープンソース、Microsoft Researchによるもの
  • MAI-Transcribe-1 — クローズド、Microsoftの新しいSuperIntelligenceチームが新たに出荷。Azure Foundry経由で利用可能。

そして、医療ボイスで実際に重要な指標では、オープンモデルが明確に勝っています:

  • VibeVoice-ASR 9B#3, 3.16% M-WER
  • MAI-Transcribe-1#11, 4.85% M-WER

つまり、Microsoft自身のオープンソース公開版が、MicrosoftのフラッグシップのクローズドSTT製品に対して勝っているのは:

  • M-WERの絶対値で1.7ポイント
  • Drug M-WERの絶対値で5.6ポイント

VibeVoiceはとても優秀ですが、重いです:9Bパラメータ、長い推論、そして私たちはこれをH100 96GBで実行しました。そのため、文脈に基づく医療の正確さでは勝ちますが、デプロイ可能性では勝てません。

最高の小型オープンソースモデル:Qwen3-ASR 1.7B

これは、おそらく全体のボードの中で最も実用的に興味深いオープンソース結果です。

Qwen3-ASR 1.7Bの成績は:

  • 9.00% WER
  • 4.40% M-WER
  • 8.6% Drug M-WER
  • A10で1ファイルあたり約6.8s

これは強力な精度対コストのトレードオフです。

VibeVoiceよりずっと速く、はるかに小さく、それでも医療用語に関して十分に良いので、ローカルまたはセミローカルな臨床向け音声スタックを作っている多くの人にとって、#1の座よりもこの結果のほうが価値があると思います。

重要なデプロイ上の注意点が1つあります:Qwen3-ASRはT4とはうまく噛み合いません。モデルパスはより新しい注意(attention)対応を必要とし、bf16で提供されるため、現実的なターゲットはA10以上です。

また、デフォルトのvLLMセットアップには厄介な長時間音声バグがありました。Qwen3が長いファイルで黙ってフリーズしてしまうのです。実用的な修正は:

max_num_batched_tokens=16384 

この1行の変更で、私たちの環境では問題が解決しました。詳細なノートはリポジトリのAGENTS.mdにあります。

クラウドAPIがこのラウンドで本気になった

v3はまだ主にGoogle / ElevenLabs / OpenAI / Mistralの話でした。

v4は大きく広がりました:

  • Soniox (#4) — 明示的な医療向け専門化なしのユニバーサルモデルとしては見事
  • AssemblyAI Universal-3 Pro (#7) — 非常に堅実で、特にmedical-v1では良い
  • Deepgram Nova-3 Medical (#9) — 上位グループの中で最速の本格的なクラウドAPI
  • Microsoft MAI-Transcribe-1 (#11) — 思ったより弱いが、それでも競争力はある

Googleは依然として最上位を支配していますが、より広い示唆は別です:

強力なクラウドAPIと強力なオープンソースモデルとの差が、いまは小さくなりすぎていて、デプロイの制約がこれまで以上に重要になっています。

M-WERの計算方法

実装は意図的にシンプルです:

  1. 医療的に関連のある単語を参照トランスクリプト内でタグ付けする
  2. 参照と仮説の間で通常のWERアラインメントを実行する
  3. これらのタグ付き医療トークンに対してのみ、置換/削除/挿入を数える
  4. 計算する:
    • M-WER(すべての医療トークンについて)
    • Drug M-WER(薬のサブセットのみについて)

現在の語彙:

  • 179の医療用語
  • 5カテゴリ
  • PriMock57内の464の薬剤用語の出現

語彙ファイルはevaluate/medical_terms_list.pyにあり、簡単に拡張できます。

リンク

  • GitHub: https://github.com/Omi-Health/medical-STT-eval
  • 完全な42モデルのリーダーボード、評価コード、ファイルごとのトランスクリプト、ファイルごとの指標はいずれもオープンソース
  • Qwen3の長時間音声デバッグノートはAGENTS.mdに記載

指標設計に関する質問や批評、あるいはv5への提案は大歓迎です。

submitted by /u/MajesticAd2862
[link] [comments]