ALBA:生成的LLMにおける言語的・言語論的次元を評価するための欧州ポルトガル語ベンチマーク
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、生成的LLMのヨーロッパ・ポルトガル語(pt-PT)能力を評価するために、言語学的知見に基づいて設計されたベンチマークALBAを紹介する。これは、pt-BR中心のデータおよびベンチマークによって生じたギャップに対処するものである。
- ALBAは、構文、形態論、語彙論、談話分析、文化に結び付いた意味、言葉遊び、音声学・音韻論などの8つの言語的次元をカバーし、多様な言語関連タスクにおける習熟度を評価する。
- このベンチマークは言語の専門家によって手作業で構築され、LLM-as-a-judge(LLMを裁定者として用いる)によって評価することで、pt-PTが生成する言語の大規模な評価を可能にする。
- 複数のLLMにまたがる実験の結果、性能は言語的次元によって変動することが示される。これは、pt-PTのような十分に代表されていない言語に対して、多様性と言語学への配慮を反映したベンチマークの必要性を強調している。



