概要: 本論文では、音声認識を改善するためにテキストのみのデータを活用する効率的な手法を調査し、より高速な認識を可能にするエンコーダ主導型モデルに焦点を当てる。エンコーダ内でテキストレベルの表現に到達するためのモダリティ一致と動的ダウンサンプリングを含め、テキストのみのデータを統合するための手法を幅広く比較する。LibriSpeechコーパスでの実験により、より大きいエンコーダでより小さいデコーダを用いる構成は、より大きいデコーダを持つアーキテクチャの性能に匹敵、あるいはそれを上回ることを示す。また、ランダムな継続時間モデルのような単純な構成が、複雑な代替案よりも有効であることが多く、学習パイプラインを大幅に単純化できることを示す。すべてのコードとレシピを公開している。
エンコーダ主導型音声認識モデルのためのテキスト活用
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、より高速な認識を可能にするエンコーダ主導型モデルに焦点を当て、音声認識の精度向上のためにテキストのみのデータを活用する効率的手法を検討します。
- モダリティのマッチングや、エンコーダ内でテキスト表現へ到達するためのダイナミックなダウンサンプリングなど、テキストのみのデータを統合する複数のアプローチを包括的に比較します。
- LibriSpeechでの実験では、より大きいエンコーダとより小さいデコーダの組み合わせが、より大きいデコーダに依存するアーキテクチャと同等、または上回る性能を示します。
- ランダムなデュレーションモデルのようなシンプルな構成が、複雑な代替案よりも有効であることが多く、学習パイプラインを大幅に簡素化できると示しています。
- 再現性と実運用への展開のために、公開されたコードと学習レシピを提供します。



