要約: ペルシャ語はその古典詩、伝統音楽、そして広範なコードスイッチングを通じて固有の音声理解の課題を提示します - 既存のベンチマークにはこれらは捉えられていません。私たちは PARSA-Bench(Persian Audio Reasoning and Speech Assessment Benchmark)を導入します。ペルシャ語の言語と文化を対象に大規模な音声-言語モデルを評価する最初のベンチマークで、音声理解、パラリンガスティック分析、文化的音声理解にまたがる 16 件のタスクと 8,000 件を超えるサンプルで構成されています。新たに 10 のタスクが導入され、詩の韻律とスタイル検出、伝統的ペルシャ音楽の理解、コードスイッチ検出などを含みます。テキストのみのベースラインは一貫して音声ベースの対応物を上回り、転写だけが提供する情報以上の音声特有の情報をモデルが活用できていない可能性を示唆します。文化的に根ざしたタスクは、規模に関係なく韻律検出でほぼランダムの確率程度のパフォーマンスを示し、韻律知覚が現行のモデルの手の届かない領域であることを示唆します。データセットは https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench で公開されています。
PARSA-Bench: 包括的なペルシア語音声言語モデルベンチマーク
arXiv cs.CL / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- PARSA-Benchは、ペルシア語の言語と文化に対する大規模な音声言語モデルを評価する初のベンチマークとして導入され、音声理解、パラ言語分析、文化的音声理解にわたる16のタスクと8,000件超のサンプルを含む。
- 新たに10のタスクが導入され、詩の韻律と文体の検出、伝統的なペルシア音楽の理解、コードスイッチ検出などを含み、既存のベンチマークを超える評価の拡張を図っています。
- 本研究では、テキストのみのベースラインが音声モデルを上回ることを示唆しており、現在のシステムは音声信号よりも転写に依存していることを示唆しています。
- 文化的根拠のあるタスクは、モデル規模を横断してほぼランダムな Vazn 検出といった明確な故障モードを示しており、データセットは HuggingFace で公開されています。




