要旨: フィーリーアートは、映画における没入的な聴覚体験を高めるうえで重要な役割を果たしますが、時空間的に整列した音声を手作業で作成することは、依然として非常に手間がかかります。私たちは、プロのフィーリー制作ワークフローに着想を得た新しい枠組みFoleyDesignerを提案します。これにより、映画クリップの解析、時空間的に制御可能なフィーリー生成、そしてプロ仕様の音声ミキシング機能を統合します。FoleyDesignerは、精密な時空間解析のためのマルチエージェントアーキテクチャを採用しています。動画フレームから抽出した時空間的な手がかりに基づいて学習した潜在拡散モデルと、映画産業におけるポストプロダクションの実務を模倣する大規模言語モデル(LLM)駆動のハイブリッド機構を組み合わせることで、時空間的な整列を実現します。映画における高品質なステレオ音声データセットの不足に対処するために、私たちはFilmStereoを導入します。FilmStereoは、8つの一般的なフィーリーカテゴリについて、空間メタデータ、正確なタイムスタンプ、意味注釈を含む、初のプロフェッショナルなステレオ音声データセットです。応用面では、この枠組みは対話的なユーザ制御をサポートしつつ、ITU-R BS.775規格に準拠した5.1チャンネルDolby Atmosシステムを含むプロフェッショナルな制作パイプラインとのシームレスな統合を維持します。これにより、広範な創造的柔軟性が提供されます。大規模な実験により、提案手法は既存のベースラインよりも優れた時空間的整列を達成し、プロの映画制作における標準とのシームレスな互換性を示すことが確認されました。プロジェクトページはhttps://gekiii996.github.io/FoleyDesigner/ で公開されています。
FoleyDesigner: 映画クリップ向けの精密な時空間アラインメントによる没入型ステレオ・フォーリー生成
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、音の出来事(サウンドイベント)を空間と時間の両面で正確に整合させることで、映画クリップに没入型ステレオ・フォーリーを生成するためのフレームワークであるFoleyDesignerを提案する。
- 動画フレームから得た時空間の手がかりで学習した潜在拡散モデルと、LLMに基づくハイブリッドな仕組みを組み合わせるマルチエージェント手法を用い、プロの映画ポストプロダクションのワークフローを模倣する。
- データセットの制約を克服するため、著者らは新たなプロ向けステレオ音声データセットFilmStereoを公開する。これは空間メタデータ、正確なタイムスタンプ、8つの一般的なフォーリーカテゴリにわたるセマンティックなアノテーションを備えている。
- 本システムはユーザによるインタラクティブな制御をサポートし、プロのミキシング・パイプラインに適合した音声を出力する。さらに、ITU-R BS.775標準に整合した5.1チャンネルのDolby Atmosワークフローにも対応する。
- 本論文の実験結果では、既存のベースラインに比べて時空間アラインメントが向上しつつ、映画制作に必要な実運用上の統合要件も維持できることが示されている。



