まだ私たちの間で？第三者の割り込みに対する音声アシスタントの頑健性を評価・改善する

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、実環境で展開されている音声言語モデルが、第三者の割り込みを主ユーザーの発話の流れから識別する能力を欠いており、その結果として文脈依存の失敗に脆弱だと主張しています。
TPI-Trainとして、話者を意識したハードネガティブを用いることで、割り込み対応に必要な音響的手がかりの優先度付けを促す88K件のデータセットを提案します。
さらに、欺瞞的な状況において割り込み対応の方針と話者識別の精度の両方を厳密に評価するためのTPI-Benchという評価フレームワークも示されています。
実験では、データセット設計によりセマンティック・ショートカット学習（音響の手がかりを無視して意味文脈に依存する落とし穴）が抑制されることが示されています。
著者らは評価フレームワークのコードを公開し、多人数の音声インタラクションをより頑健にすることを目指しています。

要旨: 近年の話し言葉言語モデル（SLM）は実世界のシナリオで積極的に導入されているものの、第三者による割り込み（TPI）を、主たる利用者の進行中のフローから識別する能力に欠けており、その結果、文脈的失敗に対して脆弱です。このギャップを埋めるために、我々は中断対応のための音響的キューの優先付けを強制する、話者を考慮したハードネガティブを用いて設計された88K件のインスタンスからなるデータセット「TPI-Train」と、欺瞞的な文脈における割り込み処理戦略の厳密な測定と、正確な話者弁別を行うことを目的とした包括的な評価フレームワーク「TPI-Bench」を提案します。実験の結果、我々のデータセット設計は、意味的ショートカットの学習を抑制することを示しています。これは、話者の切り替えを見分けるために不可欠な音響信号を無視しながら、モデルが意味的文脈を利用してしまうという重大な落とし穴です。本研究は、SLMにおけるテキスト優位の単一モダリティ依存を克服するための基礎となるリソースを確立し、より頑健なマルチパーティの音声対話への道を切り開くと考えています。フレームワークのコードは https://tpi-va.github.io で公開されています