LLMエージェントは言語学者のように話し言葉の方言を識別できるか？

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、エージェントとして用いられるLLMが話し言葉の方言（スイス・ドイツ語を含む）を識別できるかを検証し、その性能をHuBERTのような確立された音声ベースモデルと比較する。
提案手法では、ASRが生成した音声学的な文字起こし（フォネティックな転写）に、方言特徴マップ、母音の履歴、ルールベースの手がかりといった言語学的リソースを組み合わせ、方言分類を支援する。
結果は、明示的な言語情報を与えることでLLMによる方言予測が改善することを示しており、この課題ではグラウンディングや構造化された言語的特徴が重要であることを示唆する。
著者らはLLMのベースラインと人間の言語学者のベースラインの両方を含め、自動生成された文字起こしが方言分類に役立つ一方で、ASR駆動の入力を改善する余地もあると結論づける。

要旨: ラベル付きの方言音声が不足しているため、音声の方言分類は、スイスドイツ語を含むほとんどの言語において難しい課題です。本研究では、方言を理解するエージェントとしての大規模言語モデル（LLM）の能力と、方言分類においてHuBERTのようなモデルと同等の性能を示せるかどうかを検討します。さらに、LLMのベースラインと、人間の言語学者によるベースラインも提示します。提案手法では、ASRシステムによって生成された音素表記（音声の転記）を用い、これを、方言特徴マップ、母音の履歴、規則といった言語資源と組み合わせます。その結果、言語情報が与えられると、LLMの予測が改善することが示されました。人間のベースラインは、自動生成された転記がこの種の分類に有益である一方で、改善の余地もあることを示しています。