ベースバンドを超えて:フルスペクトラム・バイオアコースティクス分類のための適応的マルチバンド符号化

arXiv cs.LG / 2026/5/1

📰 ニュースModels & Research

要点

  • 本論文は計算バイオアコースティクスの重要な制約として、16 kHz学習済みモデルに依存するため0〜8 kHzのベースバンドに限定され、超音波領域を含む情報を捨ててしまう点を扱います。
  • 動物の発声音の全スペクトルを周波数帯の特徴に分解し、それらを単一の表現へ融合する「適応的マルチバンド符号化」フレームワークを提案します。
  • 8つの事前学習モデルと5つの融合戦略を用い、3つのバイオアコースティクス・データセットで実験した結果、融合表現がベースバンドおよび時間拡張ベースラインよりも概ね優れることが2データセットで示されます。
  • 分析では、特定のエンコーダがバンド間で相関の低い埋め込み(デコリレートされた埋め込み)を生成し、その結果として融合後のクラス分離が改善する可能性が示唆されます。

Abstract

動物は、人間とは大きく異なる周波数帯域にまたがって聴取し、発声することが多く、しばしば超音波領域まで及びます。しかし、ほとんどの計算バイオ音響システムは16 kHzで事前学習された音声モデルに依存しているため、利用可能な帯域が0-8 kHzのベースバンドに制限され、多くのバイオアコースティック録音に含まれる高周波情報が捨てられてしまいます。本研究では、動物の鳴き声の全スペクトルを帯域特徴に分解し、それらを統一表現へと融合する、マルチバンド符号化の枠組みを検討します。モデルに対する類似度解析により、特定のエンコーダが、融合後のクラス分離を改善する、非相関な帯域埋め込みを生成することが示されます。8つの事前学習モデルと5つの融合戦略を用いて、3つのバイオ音響データセットに対する分類実験を行った結果、融合表現は一貫して2つのデータセットで、ベースバンドおよび時間拡張のベースラインを上回ることが確認されました。これは、動物の鳴き声の全スペクトル符号化に対するマルチバンド手法の可能性を示しています。