Speaker-Reasoner: タイムスタンプ付き話者帰属ASRに向けた相互作用ターンのスケーリングと推論パターン
arXiv cs.CL / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、複数話者ASRのためのエンドツーエンドSpeech LLMである「Speaker-Reasoner」を提案し、複雑な会話において話者帰属、文字起こし、タイムスタンプのローカライズを共同で実行します。
- 単一パス手法とは異なり、このモデルは反復的でエージェント的なマルチターンの時間的推論を用いて、音声の全体構造を推定し、自律的に時間境界を予測した後、きめ細かなセグメント分析を行います。
- 話者の身元(性別を含む)、文字起こし、タイムスタンプを共同でモデル化し、重なり合う発話、相づち(バックチャネル)、急速なターンテイキングといった重要な失敗モードを対象とします。
- 学習時のコンテキストウィンドウを超える入力長を扱うために、本システムは話者に応じたキャッシュを追加し、標準のコンテキスト制限を超えて処理を拡張します。
- AliMeetingおよびAISHELL-4での実験により、強力なベースラインに対して一貫した改善が示され、とりわけ重なり合う発話や複雑な会話ダイナミクスでの改善が顕著です。




