StereoFoley：動画から生成するオブジェクト対応ステレオ音声

Apple Machine Learning Journal / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

StereoFoleyは、セマンティックに整合し、時間的に同期し、空間的に正確なステレオ音（48kHz）を動画から生成することを目的としたビデオ音声生成フレームワークです。
本研究は、最近のビデオtoオーディオ生成モデルに見られる主要な弱点（モノラル出力に留まる、またはオブジェクトに対応したステレオ定位が弱い）を、プロのミキシングにもとづく空間的に正確なデータセット不足という課題から捉えて改善を目指しています。
著者らは、動画からステレオ音声を生成するベースモデルを学習し、セマンティック精度と音声-映像の同期において最先端の結果を報告しています。
本手法は単なる音声生成にとどまらず、シーン内の要素に紐づいたより現実的な空間オーディオ（オブジェクト対応ステレオ挙動）を目指して拡張されています。
本論文はICASSP（2026年4月に掲載）に向けた研究として位置づけられ、arXivのプレプリントとして研究コミュニティへ広く共有されています。

We present StereoFoley, a video-to-audio generation framework that produces semantically aligned, temporally synchronized, and spatially accurate stereo sound at 48 kHz. While recent generative video-to-audio models achieve strong semantic and temporal fidelity, they largely remain limited to mono or fail to deliver object-aware stereo imaging, constrained by the lack of professionally mixed, spatially accurate video-to-audio datasets. First, we develop and train a base model that generates stereo audio from video, achieving state-of-the-art in both semantic accuracy and synchronization. Next…

この記事の続きは原文サイトでお読みいただけます。

原文を読む →