[P] 量子化済みオンデバイスモデルが Whisper Large v3 (FP16) を上回る — LALM 対トランスデューサ、15,000 回の推論テスト、完全再現可能

Reddit r/MachineLearning / 2026/3/21

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

結果は speech-swift（オープンソースのオンデバイス音声AIライブラリ）から来ており、LibriSpeech の test-clean における Whisper Large v3 (FP16) を、完全再現可能なワークフローと M2 Max 上での 15 分間のテストを用いてベンチマークしています。
Qwen3-ASR 1.7B 8-bit は Large Audio-Language Model（LALM）パラダイムに従い、言語コンテキストから音響的曖昧さを解消する LLM デコーダを備え、WER は 2.35% を達成して Whisper の 2.7% を上回り、約 26% 小さく、約 13% 精度が向上しています。
Qwen3-ASR 0.6B 8-bit は 600M パラメータで WER 2.80% を達成し、Whisper のパラメータ数の約 40% に相当します。
Parakeet TDT INT8 は 634 MB の CoreML モデルを Apple Neural Engine 上で動作させ、非自己回帰トランスデューサを用いてエンコーダのフレームを直接トークンへマッピングし、自己回帰ループなしで 2.74% の WER を達成します。
多言語に関する留意点: 非英語言語に対して 4-bit 量子化は壊滅的であり（例: 韓国語の WER は 8-bit の 6.89% から 4-bit で 19.95% へ跳ね上がります）、したがって非英語デプロイメントでは 4-bit を避けてください。

私たちは Whisper Large v3 (FP16) を LibriSpeech の test-clean（2,620 発話）に対して、on-device 音声AI のためのオープンソースSwiftライブラリ speech-swift の一部として比較しました。

結果:

- Qwen3-ASR 1.7B 8-bit: 2.35% WER（Whisper の 2.7% と比較） — 26% 小さく、13% の精度向上

- Qwen3-ASR 0.6B 8-bit: 2.80% WER — 600M パラメータ、Whisper のパラメータ数の 40%

- Parakeet TDT INT8: 2.74% WER — Neural Engine 上の 634 MB CoreML モデル

2つの異なるアーキテクチャ上の理由：

Qwen3-ASR は Large Audio-Language Model (LALM) パラダイムに従います — Whisper のクロスアテンションデコーダーの代わりに Qwen3 LLM デコーダーを採用します。LLM デコーダーは音響的な曖昧さを言語コンテキストから解決し、音声統計のみに頼るのではなく、貪欲デコードがビーム探索の精度と同等になるほど自信があります。AuT エンコーダは約4,000万時間の事前学習を行いました — Whisper の学習データの約60倍です。
Parakeet TDT は非自己回帰トランスデューサーです — TDT ジョイントネットワークはエンコーダーフレームを直接トークンへマッピングします。自己回帰ループなし、設計上、生成時の幻覚は起こりません。

多言語ノート: 4ビット量子化は非英語には壊滅的です。FLEURS では韓国語は 8-bit の 6.89% から 4-bit の 19.95% WER へ — 65% のエラー増加。英語はほとんど変わりません。非英語のユーザーに提供する場合は、4-bit の使用を避けてください。

すべての数値は再現可能 — リポジトリ内のベンチマークスクリプト。M2 Max で約15分。