オンデバイス向けストリーミングASRの限界に挑む：低遅延推論のためのコンパクト高精度英語モデル

arXiv cs.AI / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、エッジ端末でCPUのみを用いて高精度な自動音声認識（ASR）を動かすために、精度・遅延・メモリ使用量のバランスをどう最適化するかを検討します。
エンコーダ・デコーダ型、トランスデューサ型、LLMベースの各ASRパラダイムを含む50件超のストリーミング可能構成をベンチマークし、制約のあるハードウェア上でのリアルタイム英語ストリーミングに最適なのはNVIDIAのNemotron Speech Streamingだと結論づけています。
著者らはストリーミング推論の全パイプラインをONNX Runtimeで再実装し、グラフレベルのオペレータ融合と、重要度付きk-quantや混合精度、最近傍への丸めなど複数のポストトレーニング量子化手法を適用します。
これらの最適化によりモデルサイズは2.47GBから最大0.67GBまで削減されますが、WER（単語誤り率）はフル精度PyTorchベースラインからの差が絶対値で1%以内に維持されます。
推奨構成であるint4 k-quantは、8つの標準ベンチマークで平均ストリーミングWER 8.20%を達成し、CPU上でリアルタイムより快適に動作しつつアルゴリズム遅延0.56秒を実現するなど、オンデバイス・ストリーミングASRの品質効率トレードオフに新たな到達点を示しています。

要旨: エッジデバイス上で高品質な自動音声認識（ASR）を実行するには、GPUアクセラレーションなしでCPUのみで動作しつつ、精度、レイテンシ、メモリフットプリントを同時に最適化するモデルが必要です。本研究では、エンコーダーデコーダ、トランスデューサ、LLMベースのパラダイムを含む最先端のASRアーキテクチャについて、バッチ、チャンク化、ストリーミングの推論モードにわたって評価する体系的な実証研究を行います。OpenAI Whisper、NVIDIA Nemotron、Parakeet TDT、Canary、Conformer Transducer、Qwen3-ASRの合計50を超える構成を対象とした包括的なベンチマークにより、資源が限られたハードウェアでのリアルタイム英語ストリーミングに対して最も有力な候補が、NVIDIAのNemotron Speech Streamingであることを特定します。次に、完全なストリーミング推論パイプラインをONNX Runtimeで再実装し、重要度重み付きk-量子化（importance-weighted k-quant）、混合精度スキーム、最近傍への丸め（round-to-nearest）量子化を含む複数のポストトレーニング量子化戦略を制御された形で評価し、さらにグラフレベルの演算子融合を組み合わせます。これらの最適化により、モデルサイズを2.47 GBから最小で0.67 GBまで削減しつつ、単語誤り率（WER）をフル精度PyTorchベースラインから絶対値で1%以内に維持します。推奨構成であるint4 k-quantバリアントは、8つの標準ベンチマークにおいて平均ストリーミングWER 8.20%を達成し、CPU上で0.56秒のアルゴリズムレイテンシでリアルタイムより十分に高速に動作します。これにより、オンデバイス・ストリーミングASRにおける新しい品質効率のパレート点が確立されます。