広告

文化的に根差した自然言語処理に向けて

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多言語NLPの進展が自動的に文化的コンピテンス(能力・理解)を意味するわけではないと主張し、多言語能力と文化理解は乖離し得る点を指摘する。
  • 2020年から2026年にかけての50本超の論文を統合し、言語間での性能格差が、学習データのカバー範囲だけでなく、トークナイズ、プロンプトの言語、翻訳されたベンチマーク設計、文化固有の教師データ(監督)、およびマルチモーダルな文脈といった要因によっても左右されることを示す。
  • 複数のベンチマークおよびデータセットの取り組みと批評(例:Global-MMLU、CDEval、WorldValuesBench、CulturalBench、CULEMO、CulturalVQA)を取り上げ、強力なモデルであっても、地域の規範(ローカルな慣習)を平板化したり、文化的に根差した手がかりを誤読したりし得ることを明らかにする。
  • 著者らは、「言語を別々のベンチマーク行として扱う」ことを超えて、制度、文字体系、翻訳パイプライン、領域、モダリティ、コミュニティを含む「コミュニケーションの生態系(communicative ecologies)」をモデル化することを求める。
  • 本記事は、より豊かな文脈メタデータ、文化的に層化した評価、参加型のアラインメント、言語内部の多様性、そしてマルチモーダルかつコミュニティを意識した設計を重視する、文化的に根差したNLP研究アジェンダを提案する。

広告