要約: 大規模言語モデル(LLMs)は人間が知識を求める一般的な手段となりつつあるが、そのカバレッジと信頼性は大きく異なる。特に地域語の品種には大きな非対称性があり、例えばローカル版のWikipediaにある情報が標準版には欠けている。しかしこのような情報の非対称性の下でLLMsがどれだけうまく機能するかはほとんど知られておらず、特に近縁言語ではなおさらである。私たちは手作業で、地元のWikipediaページで伝えられる知識を捉え、資源量の多い対応言語には欠如している情報を含む新規の挑戦的な質問応答(QA)データセットを構築した。対象は Mandarin Chinese 対 Cantonese および German 対 Bavarian をカバーする。私たちの実験は、ローカル版のWikipediaにのみ存在する情報に関する質問に対して、LLMsが回答できないことを示している。リード(先頭)セクションからの文脈を提供することで性能が大幅に向上し、翻訳によってさらなる改善が期待できる。我々の主題別・地理的アノテーションおよび階層化評価は、地域情報とグローバル情報の両方の情報源としてローカルWikipedia版の有用性を示している。これらの知見は、LLMsの包摂性と文化的カバレッジについて重要な問いを提起する。
言語バリエーション間の情報非対称性: 広東語・普通話およびバイエルン方言・ドイツ語のQAに関するケーススタディ
arXiv cs.CL / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らはWikipediaを知識源として、ローカル語版間の情報非対称性を研究する新規のQAデータセットを構築した。
- 実験では、LLMsがローカル版にのみ含まれる情報についての質問に答えられないことが示されたが、リードセクションの文脈を提供したり翻訳を活用したりすることで、性能を大幅に改善できることが示唆された。
- この知見は、地域情報とグローバル情報の両方に対して地元のWikipedia版の価値を示すとともに、LLMsの包摂性と文化的カバー範囲に関する課題を提起する。
- この研究は、地域特有の情報源と翻訳を活用することで、言語バリエーション間の知識ギャップを埋め、LLMsを改善する方向性を提案している。