要旨: 自己教師あり学習(SSL)は音声表現に革命をもたらしましたが、標準的なTransformerの過剰なパラメータ化と二次的な計算コストは、リソースが制約されたデバイスでの展開を制限しています。このボトルネックに対処するため、我々は新しいデカップルド(切り離し型)アーキテクチャであるHEAR(Human-inspired Efficient Audio Representation)を提案します。人間の認知能力が、局所の音響特徴を大域的な文脈から分離することを可能にする点に着想を得て、HEARは処理パイプラインを2つの専用モジュールに分割します。局所特徴抽出のためのAcoustic Model(音響モデル)と、大域的な意味統合のためのTask Model(タスクモデル)です。知識蒸留によって訓練されたAcoustic Tokenizerと組み合わせることで、我々の手法は堅牢なMasked Audio Modeling(MAM)を可能にします。大規模な実験により、HEARは推論において15Mのパラメータと9.47 GFLOPsのみを必要とし、従来の基盤モデル(通常85M〜94Mのパラメータを必要とする)の計算コストの一部で動作することが示されます。この高い効率にもかかわらず、HEARは多様な音声分類ベンチマークにおいて非常に競争力の高い性能を達成します。コードおよび事前学習済みモデルは https://github.com/HarunoriKawano/HEAR で利用可能です
効率的な音声表現学習のための人間に着想を得たデカップルド・アーキテクチャ
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、標準的なTransformerベースの自己教師あり学習におけるパラメータ数と二次的な計算コストを削減することを目的としたデカップルド音声モデル「HEAR(Human-inspired Efficient Audio Representation)」を提案する。
- HEARは、人間が局所的な音響手がかりとより広い文脈を分離する方法に着想を得て、処理を、局所特徴抽出のためのアコースティックモデルと、グローバルな意味統合のためのタスクモデルに分ける。
- 知識蒸留で学習されたアコースティック・トークナイザを用いることで、頑健なマスク音声モデリング(MAM)を支援する。
- 実験では、推論時の約15Mパラメータ、9.47 GFLOPsといった高い効率性が報告されており、典型的な基盤音声モデル(85M〜94M)に比べて大幅に低い一方で、複数の音声分類ベンチマークで競争力のある結果を維持している。
- 著者らは、再利用やさらなる実験を容易にするため、リンクされたGitHubリポジトリを通じてコードと事前学習済みモデルを提供している。



