要旨: 大規模言語モデル(LLM)は現在、世界中で導入が進み、多言語・多文化能力を測定するベンチマークが急増しています。しかし、これらのベンチマークは、一般的な言語理解や表面的な文化雑学を優先する一方で、モデルが現実世界の状況に根ざし、文脈に富んだシナリオの中で推論しなければならない、根拠に基づくタスクの評価はほとんど扱われていません。このギャップを埋めるために、私たちはCulturALLを提示します。CulturALLは、根拠に基づくタスクにおけるLLMの多言語・多文化的能力を評価するための、包括的で挑戦的なベンチマークです。CulturALLは、人間—AI協働の枠組みによって構築されます。専門のアノテータが適切な難易度と事実の正確性を保証し、一方でLLMが手作業の負担を軽減します。多様な情報源を取り入れることで、CulturALLはシナリオの網羅性を確保しています。各項目は注意深く設計されており、高い難易度が提示されるため、CulturALLは非常に難しいものになっています。CulturALLには、51地域からの14言語による2,610件のサンプルが含まれており、根拠に基づくタスクの全体的な幅を捉えるために16のトピックに分散されています。実験の結果、最も優れたLLMはCulturALLで44.48%の精度を達成しており、大幅な改善の余地があることを強く示しています。
CulturALL:実世界に根ざした課題でLLMの多言語・多文化コンピテンスをベンチマークする
arXiv cs.CL / 2026/4/22
📰 ニュースModels & Research
要点
- 新しいCulturALLは、汎用的な言語理解や表面的な文化雑学ではなく、現実世界の文脈に根ざして推論する「grounded」な課題においてLLMの多言語・多文化コンピテンスを評価します。
- CulturALLは、人間とAIの協働フレームワークで構築され、専門アノテータが難易度や事実の正確性を担保しつつ、LLMが手作業の負担を軽減します。
- さまざまな情報源を取り入れることでシナリオの幅を確保しており、14言語・51地域にまたがる2,610件のサンプルを16のトピックに分配しています。
- 実験では最良モデルでも精度44.48%にとどまっており、性能には大きな改善余地があることを示しています。


