大規模基盤モデルにおける音声・映像インテリジェンス

arXiv cs.CV / 2026/5/6

💬 オピニオン

要点

  • 音声・映像インテリジェンス(AVI)はAIの重要なフロンティアであり、大規模基盤モデルの時代には、理解だけでなく制御可能な生成や推論のためにも、音声と視覚の共同モデリングが不可欠だと論じられている。
  • 既存研究の分断を解消するために、AVIのタスクを理解(例:音声認識、音源定位)、生成(例:音声駆動の動画合成、動画から音声)、相互作用(例:対話、身体性のあるインタフェース、エージェント型UI)に整理する統一タクソノミーを提示している。
  • 方法論の基礎として、モダリティのトークン化、クロスモーダル融合、自回帰型および拡散ベースの生成、大規模事前学習、指示に対する整合、選好最適化などを体系化している。
  • 代表的なデータセット、ベンチマーク、評価指標を収集し、タスク群を横断した体系的な比較を可能にすると同時に、同期、空間推論、制御性、安全性といった未解決課題を明確化している。
  • Meta MovieGenやGoogle Veo-3のような例を通じて、大規模なマルチモーダルデータで学習する統一的な音声・映像アーキテクチャへの産業・学術の関心が高まっていることを示している。

要旨: 音声・映像インテリジェンス(AVI)は、人工知能における中心的なフロンティアとして台頭しており、聴覚と視覚のモダリティを橋渡しすることで、多様な現実世界においてマルチモーダルに知覚し、生成し、相互作用できる機械を可能にします。大規模な基盤モデルの時代において、音声と視覚の共同モデリングはますます重要になっています。すなわち、それは単なる理解のためだけでなく、動的で時間的に基づいた信号にまたがる、制御可能な生成と推論のためでもあります。Meta MovieGen や Google Veo-3 といった最近の進展は、大規模なマルチモーダルデータから学習する統一的な音声・映像アーキテクチャへの産業界および学術界の関心が高まっていることを示しています。しかし、急速な進展があるにもかかわらず、文献は依然として分断されており、多様なタスク、整合性のないタクソノミ、そして体系的な比較や知識統合を妨げる不均質な評価手法にまたがっています。本調査は、大規模基盤モデルの観点から AVI を包括的に最初にレビューするものです。私たちは、音声認識や音源定位などの理解から、音声駆動の映像合成や動画から音声への変換などの生成、対話、身体性を備えたインターフェース、またはエージェント的インターフェースなどの相互作用に至るまで、AVI タスクの広範な領域をカバーする統一的なタクソノミを構築します。さらに、モダリティのトークン化、クロスモーダル融合、自回帰および拡散ベースの生成、大規模事前学習、指示の整合、嗜好最適化など、方法論的基盤を統合します。加えて、代表的なデータセット、ベンチマーク、および評価指標を厳選し、タスク群にまたがる体系的な比較を可能にするとともに、同期、空間推論、制御可能性、安全性といった未解決の課題を特定します。この急速に拡大する分野を首尾一貫した枠組みにまとめることで、本調査は大規模 AVI に関する今後の研究のための基礎的な参照となることを目指します。

大規模基盤モデルにおける音声・映像インテリジェンス | AI Navigate