クラス・オントロジーとデータ規模が音声転移学習に与える影響
arXiv cs.LG / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、AudioSetをオントロジーに基づいてサブセット化し、異なるモデル状態を事前学習したうえで、3つの下流のコンピュータ・オーディション課題(音響シーン、鳥の活動、スピーチコマンド認識)で微調整することで、音声から音声への転移学習を精密に検証する。
- サンプル数を増やすこと、ならびにクラス数を拡張することの両方によって事前学習データをスケールさせると、転移学習の性能が向上することを見出す。
- このスケールによる恩恵は、事前学習データが下流課題にどれだけ類似しているかによって、しばしば上回られてしまうことも報告しており、モデルが十分に同等な特徴を学習してしまう可能性がある。
- 本研究では、転移学習にはなおメカニズムに関する未解決の問いが残っているという立場を示し、特に音声領域において、それがいつ・なぜ機能するのかを明らかにすることを目指す。
広告




