要旨: LLMにおける文化的推論を、文化的に豊かで方言的な文脈を捉える会話データセットを用いて評価することには、大きなギャップがある。多くのアラビア語ベンチマークは、現代標準アラビア語(MSA)の短いテキスト断片に焦点を当てており、対話の中で自然に生じる文化的ニュアンスを見落としている。このギャップに対処するために、アラブ諸国13か国をカバーする、文化に根ざした会話データセット「ArabCulture-Dialogue」を導入する。このデータセットは、MSAと各国のそれぞれの方言の両方で、12の日常生活トピックと54のきめ細かなサブトピックにまたがる。私たちは、このデータセットを用いて3つのベンチマーク課題を構築する:(i) 多肢選択式の文化的推論、(ii) MSAと方言の間の機械翻訳、(iii) 方言誘導(dialect-steering)生成。実験の結果、MSAとアラビア語の方言の間には依然として性能差が存在し、モデルは方言の設定では、MSAの設定と比べて3つの課題すべてでより悪い性能を示すことが分かった。
標準アラビア語と方言の対話におけるLLMの文化的ベンチマーク
arXiv cs.AI / 2026/5/4
💬 オピニオンSignals & Early TrendsModels & Research
要点
- この記事は、大きな評価ギャップとして、現在のアラビア語LLMベンチマークが主に現代標準アラビア語(MSA)の短文に依存しており、実際の対話で自然に現れる文化的ニュアンスや方言の要素を見落としている点を指摘しています。
- 著者らは、13のアラビア語圏の国をカバーし、MSAと各国の方言の両方を含む、文化に根ざした対話データセット「ArabCulture-Dialogue」を新たに提案します。
- このデータセットを用いて、(i) 文化的推論の多肢選択、(ii) MSAと方言間の機械翻訳、(iii) 方言を誘導する生成、の3つのベンチマーク課題を構成します。
- 実験では、3つの課題すべてにおいて方言設定の方がMSAよりもモデルの性能が一貫して低いことが示され、モデルが対話理解における方言・文化固有の要素にまだ苦戦していることを示唆しています。
- 本研究は、文化的に豊かな対話的アラビア語文脈でLLMの能力をより現実的に測定するための枠組みを提供します。



