私たちは Whisper Large v3 (FP16) を LibriSpeech の test-clean(2,620 発話)に対して、on-device 音声AI のためのオープンソースSwiftライブラリ speech-swift の一部として比較しました。
結果:
- Qwen3-ASR 1.7B 8-bit: 2.35% WER(Whisper の 2.7% と比較) — 26% 小さく、13% の精度向上
- Qwen3-ASR 0.6B 8-bit: 2.80% WER — 600M パラメータ、Whisper のパラメータ数の 40%
- Parakeet TDT INT8: 2.74% WER — Neural Engine 上の 634 MB CoreML モデル
2つの異なるアーキテクチャ上の理由:
Qwen3-ASR は Large Audio-Language Model (LALM) パラダイムに従います — Whisper のクロスアテンションデコーダーの代わりに Qwen3 LLM デコーダーを採用します。LLM デコーダーは音響的な曖昧さを言語コンテキストから解決し、音声統計のみに頼るのではなく、貪欲デコードがビーム探索の精度と同等になるほど自信があります。AuT エンコーダは約4,000万時間の事前学習を行いました — Whisper の学習データの約60倍です。
Parakeet TDT は非自己回帰トランスデューサーです — TDT ジョイントネットワークはエンコーダーフレームを直接トークンへマッピングします。自己回帰ループなし、設計上、生成時の幻覚は起こりません。
多言語ノート: 4ビット量子化は非英語には壊滅的です。FLEURS では韓国語は 8-bit の 6.89% から 4-bit の 19.95% WER へ — 65% のエラー増加。英語はほとんど変わりません。非英語のユーザーに提供する場合は、4-bit の使用を避けてください。
すべての数値は再現可能 — リポジトリ内のベンチマークスクリプト。M2 Max で約15分。
記事(アーキテクチャの内訳 + 完全なベンチマーク): https://blog.ivan.digital/we-beat-whisper-large-v3-with-a-600m-model-running-entirely-on-your-mac-20e6ce191174
[リンク] [コメント]




