要旨: LLMエージェントにおける近年の進歩は、反応型でテキスト中心のパラダイムから、主導的でマルチモーダルな相互作用へと徐々に移行しつつあります。しかし、既存のベンチマークは主に反応型の応答に焦点を当てており、主導的な介入とモニタリングの複雑さが見落とされています。このギャップを埋めるために、私たちは初の「ProVoice-Bench」を導入します。これは、主導的な音声エージェント専用に設計された最初の評価フレームワークであり、4つの新規タスクを備えています。マルチステージのデータ合成パイプラインを活用することで、厳密な試験のための高品質なサンプル1,182件を厳選しています。最先端のマルチモーダルLLMの評価の結果、特に過剰起動(over-triggering)や推論能力に関して大きな性能差があることが分かりました。これらの知見は、現在のモデルの限界を示すとともに、より自然で文脈に配慮した主導的エージェントを開発するためのロードマップを提供します。
反応型から先回り型へ:ProVoice-Benchでボイスエージェントのプロアクティブ性を評価する
arXiv cs.AI / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMボイスエージェントが反応的でテキスト中心のやり取りから、先回りしてマルチモーダルに関与する方向へ進んでいる一方で、既存のベンチマークは先回り行動を十分に測れていないと述べています。
- ProVoice-Benchとして、先回り型のボイスエージェントのために設計された4つのタスクを備える評価フレームワークを新たに提案しています。
- 複数段階のデータ合成パイプラインを用いて、厳密な評価のための高品質なテストサンプル1,182件を構築しています。
- 最先端のマルチモーダルLLMを評価した結果、とりわけ過剰なトリガー(over-triggering)や、先回り行動のための推論能力において大きな性能ギャップが見られました。
- 得られた知見は、現行モデルの限界を示すと同時に、より自然で文脈に適した先回り型エージェントを作るためのロードマップとして位置付けられています。



