広告

強力な教師信号の解放:汎用オーディオ事前学習手法に関するデータ中心の研究

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、オーディオの事前学習が現在、弱い・ノイズを含む・スケールに制約のあるラベルによって制限されており、進歩は一般に利用可能なものよりも良い教師信号に大きく依存していると主張する。
  • 高忠実度のキャプショナーを用いて最先端のキャプションを生成するデータ中心のパイプラインを提案し、さらに音声・音楽・環境音を結び付けることを意図した統一タグシステム(UTS)を導入する。
  • 新たに作成した強い(強度の高い)ソースデータを用いて、複数の事前学習目的を体系的に比較し、目的がモデルの下流タスクに対する専門性(特化)にどのように影響するかを理解する。
  • 結果は、性能を左右する支配的な要因がデータ品質とカバレッジである一方で、特定の学習目的は主に下流タスクの専門性を決定することを示している。

概要: 現在の音声事前学習は、幅広い音声理解タスクに対応する統一的な表現を学習しようとしていますが、依然として断片化しており、弱く、ノイズを含み、かつスケールが制限されたラベルへの依存によって根本的にボトルネック化しています。視覚分野の基盤となる事前学習の設計図から得られる教訓を踏まえ、音声分野ではまず自らの大規模で強力な教師あり学習の枠組みを確立する必要があると主張します。私たちは、高忠実度のキャプショナーを活用してSOTA品質のキャプションを作成し、さらに音声・音楽・環境音を橋渡しする初の統一タグシステム(UTS)を導入します。次に、これらの強力な元データに対して、異なる事前学習目的を体系的に比較する研究を行います。実験の結果は、性能を主に左右するのはデータの質とカバレッジであり、一方で目的の選択が下流タスクの専門化を決定することを示唆しています。

広告