要旨: 大規模言語モデル(LLM)の文化的(不)整合性が注目を集めるようになっており、しばしば文化的バイアスという観点で語られますが、これまで文化の評価のためのデータセットの設計・開発に関する研究は限られていました。ここでは、そのようなデータセットに関する既存の手法を概観し、主な限界を特定します。これらの課題に対処するために、注釈者向けの設計ガイドラインを提案し、それらの原則に従って構築したデータセットについて報告します。さらに、このデータセットを用いて行った一連の対照実験を提示します。その結果、我々の設計は、同一条件の下で、特定の文化に特化したモデルとそうでないモデルとを効果的に識別できる、識別力の高いテストセットを生み出すことが示されました。
『アートの傑作』や『観光の決まり文句』を超えて:文化的整合性の観点からLLMを評価する方法
arXiv cs.CL / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMの文化的ミスアライメントが注目されつつも、文化的アセスメントのためのデータセット設計には限られた研究しかなかった点を指摘している。
- 既存のデータセット手法を整理し、その主要な限界を明確にしたうえで、注釈者向けの具体的な設計ガイドラインを提案している。
- 提案されたガイドラインに基づいて著者らは新しいデータセットを構築し、文化的整合性をより確実に測ることを目指している。
- さらに、コントラスト実験を行い、その結果として得られたテストセットが識別力を高め、同条件下で文化に特化したモデルとそうでないモデルを効果的に分けられることを示している。


