Syn-TurnTurk: トルコ語対話におけるターンテイキング予測のための合成データセット
arXiv cs.CL / 2026/4/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、トルコ語の音声チャットボットにおけるターンテイキングのタイミングを扱い、沈黙検出に依存すると、人間の休止が不規則なためにボットが割り込んでしまう問題を指摘している。
- 複数のQwen LLMを用いて生成した、より実際のやり取りを反映する合成トルコ語対話データセット「Syn-TurnTurk」を導入し、発話の重なりや意図的な沈黙などを含めている。
- 本研究では、ターンテイキング予測について従来手法と深層学習手法の両方を評価し、BI-LSTMおよびアンサンブル(LR+RF)構成で高い性能を報告している(精度 0.839、AUC 0.910)。
- 著者らは、このデータセットが言語的手がかりの検出能力を高め、トルコ語におけるより自然な人間—機械のインタラクションにつながり得ると主張している。
- 本研究は、トルコ語のターンテイキング予測におけるデータ品質のギャップを明らかにし、合成データを今後の研究やモデル開発に向けた実用的な解決策として位置付けている。
