| TL;DR: 医療音声の音声認識(speech-to-text)ベンチマークを42モデル(v3の31から増加)に更新し、新しい指標Medical WER(M-WER)を追加しました。 標準のWERはすべての単語を同等に扱います。しかし医療音声ではそれがほとんど意味をなしません――「yeah」と「アモキシシリン」では重要度が同じではありません。 そこでv4では、ベンチマークを臨床的に関連のある単語だけで再採点しました。具体的には、薬、疾患、症状、解剖、そして臨床手技です。また、患者安全のリスクが本当の意味で顕在化するのは薬の名前のところなので、Drug M-WERも別枠で切り出しました。 この変更により、順位表は大きく並び替えられました。 注目すべき結果をいくつか:
すべてのコード、文字起こし(transcripts)、ファイルごとの指標、そして完全な順位表はGitHubでオープンソースです。 v3以降で何が変わったか1. 新しい主要指標:Medical WER(M-WER)標準WERは依然として有用ですが、医師と患者の会話では誤ったものに過度な重みがかかります。聞き漏らしたフィラー語も、聞き漏らした薬の名前も、どちらも1つのエラーとして数えられます――たとえ臨床的に重要なのはおそらく片方だけであっても。 そこでv4では次を追加しました:
現在の語彙は、5つのカテゴリにまたがって179語をカバーしています:
順位の組み替えは本物です。Parakeet TDT 0.6B v3 は v3 の通常WERでは非常に良さそうに見えましたが、M-WERでは#31まで落ちます。そして22% Drug M-WERとなります。会話のつなぎは得意でも、実際に臨床的な意味を運ぶ語に対しては大きく弱いのです。 2. 新たに11モデル追加(31 → 42)今回のラウンドでは、非常に有力な新規候補が多数追加されました:
さらに、Multitalker Parakeet 0.6BをcpWERで評価するマルチ話者トラックも別途追加しました。共同のASR+話者ダイアライゼーションは別の評価問題だからです。 Medical WER上位20データセット:PriMock57 ― 55件の医師-患者の相談(doctor-patient consultations)。約80K語のイギリス英語の医療対話。
GitHubで、完全な42モデルのリーダーボードを公開しています。 おもしろいところ:Microsoft vs Microsoft今回のこのベンチマークでは、Microsoftには見えるSTT提供が2つあります:
そして、医療ボイスで実際に重要な指標では、オープンモデルが明確に勝っています:
つまり、Microsoft自身のオープンソース公開版が、MicrosoftのフラッグシップのクローズドSTT製品に対して勝っているのは:
VibeVoiceはとても優秀ですが、重いです:9Bパラメータ、長い推論、そして私たちはこれをH100 96GBで実行しました。そのため、文脈に基づく医療の正確さでは勝ちますが、デプロイ可能性では勝てません。 最高の小型オープンソースモデル:Qwen3-ASR 1.7Bこれは、おそらく全体のボードの中で最も実用的に興味深いオープンソース結果です。 Qwen3-ASR 1.7Bの成績は:
これは強力な精度対コストのトレードオフです。 VibeVoiceよりずっと速く、はるかに小さく、それでも医療用語に関して十分に良いので、ローカルまたはセミローカルな臨床向け音声スタックを作っている多くの人にとって、#1の座よりもこの結果のほうが価値があると思います。 重要なデプロイ上の注意点が1つあります:Qwen3-ASRはT4とはうまく噛み合いません。モデルパスはより新しい注意(attention)対応を必要とし、bf16で提供されるため、現実的なターゲットはA10以上です。 また、デフォルトのvLLMセットアップには厄介な長時間音声バグがありました。Qwen3が長いファイルで黙ってフリーズしてしまうのです。実用的な修正は: この1行の変更で、私たちの環境では問題が解決しました。詳細なノートはリポジトリの クラウドAPIがこのラウンドで本気になったv3はまだ主にGoogle / ElevenLabs / OpenAI / Mistralの話でした。 v4は大きく広がりました:
Googleは依然として最上位を支配していますが、より広い示唆は別です: 強力なクラウドAPIと強力なオープンソースモデルとの差が、いまは小さくなりすぎていて、デプロイの制約がこれまで以上に重要になっています。 M-WERの計算方法実装は意図的にシンプルです:
現在の語彙:
語彙ファイルは リンク
指標設計に関する質問や批評、あるいはv5への提案は大歓迎です。 [link] [comments] |
新しい「Medical WER(M-WER)」指標で医療音声の42のSTTモデルをベンチマークしたところ、リーダーボードの順位が完全に入れ替わった
Reddit r/LocalLLaMA / 2026/4/10
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 医療向けの音声認識ベンチマークを31モデルから42モデルへ更新し、臨床に焦点を当てた「Medical WER(M-WER)」に加えて薬剤のみを対象とする「Drug M-WER」を導入することで、患者安全への関連性をより適切に反映する。
- 通常のWERはフィラーや重要度の低い単語を過大に評価し、すべてのトークンを等価に扱うため、新しい指標は臨床的に関連する参照トークンのみを再スコアリングすることを説明する。
- リーダーボードの順位が大きく変わったことを報告している。VibeVoice-ASR 9BはM-WERで#3へ上昇する一方、Parakeet TDT 0.6B v3は薬剤名の性能が主な要因となって#31へ下落した。
- M-WERのもとでは、小型のローカルモデルとクラウドAPIの双方が競争力を維持していることを強調している。Qwen3-ASR 1.7Bは良好な結果を示し、Soniox、AssemblyAI、Deepgramのようなベンダーも上位にランクインしている。
- コード、書き起こし(transcripts)、ファイルごとの指標、完全なリーダーボードがGitHubでオープンソースとして公開されており、他者が評価を再現し拡張できることを述べている。




