EchoChain:中断下における状態更新推論のためのフルデュプレックス・ベンチマーク

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、ユーザーが応答の途中で割り込むときに、リアルタイム音声アシスタントがタスク状態をどう更新するかを評価するための新しいベンチマーク「EchoChain」を提案します。
  • EchoChain は、中断後の継続における失敗パターンとして、文脈的惰性、割り込みの記憶喪失、目的の置き換わりを挙げています。
  • сценарioベースの会話を生成し、割り込みをアシスタントの発話開始に対して標準化されたタイミングで挿入することで、モデル間の比較を一貫して行えます。
  • 評価したリアルタイム音声モデルでは、どのシステムも合格率50%を超えず、中断中(生成途中)の状態修正に大きな課題があることを示しています。
  • 併用したハーフデュプレックスの対照条件では、割り込みありの場合に比べて総失敗が40.2%減少し、多くの誤りがタスクの難しさ単独ではなく「割り込みに起因する状態更新推論」によって引き起こされる可能性を示唆します。