S-SONDO：汎用オーディオ基盤モデルに対する自己教師あり知識蒸留

arXiv cs.AI / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文では、S-SONDOという枠組みを提案し、教師モデルの出力（埋め込み）のみを使って汎用オーディオ基盤モデルを蒸留する点を特徴とし、ロジットや中間層の整合を不要にします。
ロジット出力を前提とせず、埋め込みのみを出す自己教師あり／メトリック学習型モデルも扱えるため、S-SONDOはアーキテクチャ非依存で幅広く適用可能です。
実験では、2つのオーディオ基盤モデルから3つの効率的な学生モデルを蒸留でき、最大61倍の小型化を達成しつつ、教師モデル性能の最大96%を維持できることを示します。
著者らは、損失関数の選び方やクラスタリングに基づくバランスサンプリングの実務的な指針も提示しています。
再現性のために、GitHubでコードを公開しています（ssondo）。

要旨: 一般的なオーディオ基盤モデルは、近年目覚ましい進歩を遂げており、多様なタスクにわたって強力な性能を発揮できるようになっています。しかし、最先端のモデルは依然として非常に大規模であることが多く、数億規模のパラメータを抱えるため、推論コストが高くなり、エッジデバイスへの展開が限られます。知識蒸留はモデル圧縮のための実証済みの戦略ですが、これまでのオーディオ分野の先行研究は主に教師あり設定に焦点を当てており、クラスのロジット、中間特徴、またはアーキテクチャ固有の手法に依存していました。これらの前提は、自分自身の出力のみを埋め込み（embedding）として返すモデル、たとえば自己教師ありモデルやメトリック学習モデルを除外してしまいます。我々は、出力埋め込みのみを用いて一般的なオーディオモデルを蒸留する最初の枠組みであるS-SONDO（Self-Supervised KnOwledge DistillatioN for General AuDio FOundation Models）を提案します。ロジットや層レベルの対応付けを必要としないことで、S-SONDOはアーキテクチャに依存せず、埋め込みベースの教師に対して広く適用可能です。2つのオーディオ基盤モデルを3つの効率的な学生モデルへ蒸留することで、その有効性を示します。学生モデルは最大で教師の61分の1まで小型化されているにもかかわらず、教師の性能の最大96%を維持しています。また、損失の選択と、クラスタリングに基づくバランスの取れたデータサンプリングに関する実用的な知見も提供します。コードはこちら: https://github.com/MedAliAdlouni/ssondo。