要旨: ダジャレは、多義性と音韻的曖昧さを利用してユーモアを生み出す典型的な言語現象であり、自然言語理解に対して独特の課題を提起します。ダジャレ研究の中で、音声はテキストや画像を除いて人間のコミュニケーションにおいて中心的な役割を果たしますが、話し言葉のダジャレに関するデータセットや体系的資源は依然として不足しており、この重要なモダリティはほとんど十分に探究されていません。本論文では APUN-Bench を提示します。これは音声ダジャレ理解を評価することに特化した、大規模音声言語モデル(LALMs)を対象とする初のベンチマークです。私たちのベンチマークには、3段階(ダジャレ認識、ダジャレ語の位置特定、ダジャレの意味推論)にわたって注釈された4,434の音声サンプルが含まれます。APUN-Bench の深い分析を、最先端の LALMs を10種類の系統的な評価によって実施し、音声ダジャレの認識・局在・解釈における顕著な性能ギャップを明らかにします。この分析は、音声ダジャレの位置特定における位置バイアスや意味推論の誤りケースといった重要な課題を明らかにし、ユーモアを意識した音声知能の進化に向けた実用的な洞察を提供します。
Words at Play: 大規模音声言語モデルにおける音声ダジャレ理解のベンチマーク
arXiv cs.CL / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- APUN-Benchは、話されるダジャレの理解を評価するための、 大規模な音声言語モデルを対象とした最初のベンチマークとして導入される。
- ベンチマークには、駄洒落の認識、駄洒落の位置推定、および駄洒落の意味推論を注釈付けした4,434の音声サンプルが含まれている。
- 本論文は、10個の最先端の大規模音声言語モデルを評価し、音声駄洒落の認識・局在・解釈において顕著なギャップを見出している。
- 駄洒落の位置推定における位置バイアスや意味推論の誤りといった課題を特定し、ユーモアを理解する音声知能を前進させるための実用的な指針を提供する。)
