| TL;DR: 医療向けの音声認識(speech-to-text)ベンチマークのv3。モデルは31本に増えました(v2では26本)。Microsoft VibeVoice-ASR 9Bが8.34% WERでオープンソース勢の首位を奪取し、Gemini 2.5 Pro(8.15%)にもほぼ匹敵します。とはいえ9Bパラメータで、約18GBのVRAMが必要です(私は手軽にH100で回せたのでH100で実行しましたが、L4やそれに類するGPUでも動くはずです)。さらにH100でも遅く、Parakeetがファイルあたり6秒なのに対して97秒かかります。加えて、Whisperのテキスト正規化(normalizer)にバグが見つかり、すべてのモデルに対してWERが2〜3%膨らんでいました。全コード+結果はオープンソースです。 前回までの投稿: v1 — 15 models | v2 — 26 models v2から何が変わったか5つの新モデルを追加(26 → 31):
また、LiquidAIのLFM2.5-Audio-1.5Bと、MetaのSeamlessM4T v2 Largeも評価しましたが、どちらもこのベンチマークには適していませんでした(詳細は後述のTakeawaysへ)。 Whisperのnormalizerを自作のものに置き換えました。 これはより大きな変更点です。Whisperの
これらを合わせると、ALLモデルにわたってWERは約2〜3%膨らんでいました。v3の各スコアは、カスタムnormalizerで再計算されています。コードは 上位15のリーダーボードデータセット: PriMock57 — 55件の医師-患者の相談、英国英語の医療対話を約80K語分収録。
完全版の31モデルのリーダーボード(Granite、Phi-4、MedASRなどの下位半分も含む)は GitHub で公開しています。 重要なポイントVibeVoiceは本物—ただし重くて遅い。 9Bパラメータで、医療音声においてGeminiクラスのクラウドAPIに本気で対抗できる最初のオープンソースモデルです。約18GBのVRAMが必要です(T4には収まりませんが、H100も必須ではありません—L4/A10なら動くはずです)。ただしH100でもファイルあたり97秒は、他のローカルモデルに比べて遅めです。 Parakeet TDT 0.6B v3が本当の“エッジ”の話。 Apple Silicon上で、ファイルあたり6秒でWER 9.35%。0.6Bモデルが9Bモデルに1%以内まで迫る。 ElevenLabs Scribe v2は意味のあるアップグレード。 v1(10.87%)から9.72%へ改善。Googleに行きたくない場合の最良のクラウドAPI選択肢です。 LFM AudioとSeamlessM4Tは選に漏れました。 LFM2.5-Audio-1.5Bは専用のASRモデルではなく、プロンプトによる“副次的な機能”として文字起こしを行う形です。推奨されている2秒チャンクだと、キーワード抽出が疎(1400語の会話から約74語)になります。さらに長いチャンクだと、幻覚ループ(hallucination loops)が発生します。SeamlessM4Tは翻訳モデルで、音声を逐語的に文字起こしするのではなく、音声を要約しました(約1400語のうち約677語)。どちらも長尺の文字起こしには適していません。 Normalizerの注意喚起Whisperのnormalizerを使って会話音声のWERベンチマークを回しているなら、たぶん数値が水増しされています。「oh」のバグだけでも、自然な発話を含む音声すべてに影響します。カスタムnormalizerはMITライセンスで、whisperパッケージへの依存はゼロです。リポジトリから取得してください。 リンク: |
[リンク] [コメント]



