Speaker-Reasoner: タイムスタンプ付き話者帰属ASRに向けた相互作用ターンのスケーリングと推論パターン

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数話者ASRのためのエンドツーエンドSpeech LLMである「Speaker-Reasoner」を提案し、複雑な会話において話者帰属、文字起こし、タイムスタンプのローカライズを共同で実行します。
  • 単一パス手法とは異なり、このモデルは反復的でエージェント的なマルチターンの時間的推論を用いて、音声の全体構造を推定し、自律的に時間境界を予測した後、きめ細かなセグメント分析を行います。
  • 話者の身元(性別を含む)、文字起こし、タイムスタンプを共同でモデル化し、重なり合う発話、相づち(バックチャネル)、急速なターンテイキングといった重要な失敗モードを対象とします。
  • 学習時のコンテキストウィンドウを超える入力長を扱うために、本システムは話者に応じたキャッシュを追加し、標準のコンテキスト制限を超えて処理を拡張します。
  • AliMeetingおよびAISHELL-4での実験により、強力なベースラインに対して一貫した改善が示され、とりわけ重なり合う発話や複雑な会話ダイナミクスでの改善が顕著です。

Abstract

複数話者による会話を文字起こしし理解するには、音声認識、話者の帰属付け、およびタイムスタンプのローカライズが必要です。音声LLMは単一話者のタスクでは優れた性能を発揮しますが、複数話者のシナリオでは、発話の重なり、相槌(バックチャネル)、迅速なターン交代、そしてコンテキストウィンドウの制約により依然として困難が残っています。私たちは、エージェント的なマルチターン時間的推論を備えたエンドツーエンドのSpeech LLMであるSpeaker-Reasonerを提案します。単一パスの推論ではなく、このモデルはグローバルな音声構造を反復的に解析し、自律的に時間的境界を予測したうえで、きめ細かなセグメント解析を実行します。話者の識別、性別、タイムスタンプ、文字起こしを共同でモデル化します。話者を意識したキャッシュにより、さらに学習時のコンテキストウィンドウを超える音声の処理まで拡張できます。三段階の漸進的戦略で学習したSpeaker-Reasonerは、AliMeetingおよびAISHELL-4のデータセットにおいて、強力なベースラインに対して一貫した改善を達成しており、とりわけ重なり合う発話や複雑なターン交代の取り扱いにおいて顕著です。