Wikidataを活用した地理情報に基づく社会文化的バイアスデータセット作成: ラテンアメリカへの適用
arXiv cs.AI / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ウィキペディアの内容、Wikidata知識グラフの構造、そして社会科学の専門知識を活用して、ラテンアメリカの文脈における文化的背景を反映したQ/Aペアのデータセットを作成することを提案します。
- LatamQAを、26,000件を超える質問と回答を、26,000件のWikipedia記事から抽出して作成し、それらをスペイン語とポルトガル語の多肢選択式(MCQ)に変換し、英語へ翻訳しました。
- LatamQAを用いて複数のLLMsをベンチマークし、LatAm諸国間で性能差があること、モデルが元の言語でより高い性能を発揮すること、イベリアスペイン語の方がラテンアメリカ諸言語より馴染みが深いことを発見しました。
- 本研究は、非英語のLatAm文脈におけるデータのギャップを強調し、LLMsの社会文化的バイアスを測定・緩和するためのリソースを提供します。
要旨: 大規模言語モデル(LLMs)は、さまざまな文化的文脈において不平等を示します。最も著名なオープンウェイトモデルの多くはグローバルノースのデータで訓練され、他の文化に対して偏見的な挙動を示します。さらに、非英語言語のバイアスを検出するための資源が顕著に不足しており、共通の文化的基盤を共有する一方で多様な文化を含む大陸であるラテンアメリカ(Latam)にも同様です。我々は、Wikipediaの内容、Wikidata知識グラフの構造、社会科学の専門知識を活用して、さまざまなラテンアメリカ諸国の異なる人気・社会文化に基づくQ/Aペアのデータセットを作成することを提案します。私たちは、26,000件のWikipedia記事から抽出され、関連する回答とともにLatamQAデータベースを作成し、それらをスペイン語とポルトガル語の多肢選択式問題(MCQ)へ変換し、英語へ翻訳しました。このMCQを用いて、さまざまなLLMの知識の程度を定量化し、次のことを明らかにしました:(i) Latam諸国間での性能差があり、多くのモデルにとって一部の国が他のより容易である、(ii) モデルは元の言語でより良い性能を発揮する、(iii) イベリアスペイン語文化はLatamのものよりよく知られている、という点です。