話すか黙るか:多者対話における文脈認識のターンテーキング

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多者対話における文脈認識型のターンテーキングを定式化し、検出された各ポーズにおいて、会話全体の文脈に基づきアシスタントが発言するか黙るかを判断することを要求する。
  • 3つの多者コーパスにまたがる12万件超のラベル付き会話からなるベンチマークを導入し、ターンテーキングの挙動を評価する。
  • 本研究では、最近の8つの大規模言語モデルを評価し、ゼロショット・プロンプティングの下で文脈認識型ターンテーキングに一貫して失敗することを示す。
  • 推論過程の痕跡を用いた監督付きファインチューニング手法を提案し、バランス精度を最大で23ポイント改善する。
  • 文脈認識型ターンテーキングは自発的な能力ではなく、明示的な訓練が必要だという結論を示す。