StereoFoley:動画から生成するオブジェクト対応ステレオ音声
Apple Machine Learning Journal / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- StereoFoleyは、セマンティックに整合し、時間的に同期し、空間的に正確なステレオ音(48kHz)を動画から生成することを目的としたビデオ音声生成フレームワークです。
- 本研究は、最近のビデオtoオーディオ生成モデルに見られる主要な弱点(モノラル出力に留まる、またはオブジェクトに対応したステレオ定位が弱い)を、プロのミキシングにもとづく空間的に正確なデータセット不足という課題から捉えて改善を目指しています。
- 著者らは、動画からステレオ音声を生成するベースモデルを学習し、セマンティック精度と音声-映像の同期において最先端の結果を報告しています。
- 本手法は単なる音声生成にとどまらず、シーン内の要素に紐づいたより現実的な空間オーディオ(オブジェクト対応ステレオ挙動)を目指して拡張されています。
- 本論文はICASSP(2026年4月に掲載)に向けた研究として位置づけられ、arXivのプレプリントとして研究コミュニティへ広く共有されています。
We present StereoFoley, a video-to-audio generation framework that produces semantically aligned, temporally synchronized, and spatially accurate stereo sound at 48 kHz. While recent generative video-to-audio models achieve strong semantic and temporal fidelity, they largely remain limited to mono or fail to deliver object-aware stereo imaging, constrained by the lack of professionally mixed, spatially accurate video-to-audio datasets. First, we develop and train a base model that generates stereo audio from video, achieving state-of-the-art in both semantic accuracy and synchronization. Next…
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



