文字起こしを超えて：知覚に配慮したAudioLLMsのための統一オーディオ・スキーマ

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多くのAudioLLMが微細な音響知覚で十分に性能を発揮できないのは、ASR（自動音声認識）中心の学習が、「ノイズ」として準言語的・非言語的な音響手がかりを抑制することを促すためだと主張する。
文字起こし（Transcription）、準言語（Paralinguistics）、非言語イベント（Non-linguistic Events）へと音声の監督を分解し、統一されたJSON形式で表現する構造化された教師信号フレームワークとして、統一オーディオ・スキーマ（UAS）を提案する。
このアプローチは、AudioLLMが強い推論を行うために必要な音声—テキスト間の整合性を維持しつつ、音響カバレッジを向上させることを目的としている。
離散型および連続型のAudioLLMアーキテクチャに関する実験では、一貫した改善が確認されており、同サイズの最先端ベースラインと比較してMMSUにおける微細な知覚が10.9%向上した。
著者らは推論能力が頑健に保たれることを報告しており、関連するGitHubリポジトリを通じて公開コード／モデルを提供している。

要旨: 最近の音声大規模言語モデル（AudioLLM）は、顕著な性能逆転を示します。すなわち、複雑な推論タスクでは優れている一方で、微細な聴覚的知覚では一貫して性能が低くなります。このギャップは、ASR中心の学習に起因する根本的な制約によるものだと考えます。ASR中心の学習は正確な言語的目標を与える一方で、暗黙的に、モデルに対してパラ言語的手がかりや音響イベントをノイズとして抑制するよう教えてしまうのです。これに対処するため、統一音声スキーマ（Unified Audio Schema: UAS）を提案します。UASは、音声情報を3つの明示的な構成要素――Transcription（転写）、Paralinguistics（パラ言語）、Non-linguistic Events（非言語イベント）――に整理し、単一のJSON形式の中で統合する、全体論的で構造化された監督（supervision）フレームワークです。この設計により、推論を可能にする厳密な音声-テキスト整合性を損なうことなく、包括的な音響カバレッジを実現します。本手法の有効性は、離散型および連続型の両方のAudioLLMアーキテクチャに適用することで検証します。MMSU、MMAR、MMAUに対する大規模な実験の結果、UAS-Audioは一貫した改善を示し、同規模の既存の最先端モデルと比べてMMSUで微細な知覚を10.9%向上させるとともに、堅牢な推論能力も維持します。コードとモデルは https://github.com/Tencent/Unified_Audio_Schema で公開されています。