ALBA：生成的LLMにおける言語的・言語論的次元を評価するための欧州ポルトガル語ベンチマーク

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、生成的LLMのヨーロッパ・ポルトガル語（pt-PT）能力を評価するために、言語学的知見に基づいて設計されたベンチマークALBAを紹介する。これは、pt-BR中心のデータおよびベンチマークによって生じたギャップに対処するものである。
ALBAは、構文、形態論、語彙論、談話分析、文化に結び付いた意味、言葉遊び、音声学・音韻論などの8つの言語的次元をカバーし、多様な言語関連タスクにおける習熟度を評価する。
このベンチマークは言語の専門家によって手作業で構築され、LLM-as-a-judge（LLMを裁定者として用いる）によって評価することで、pt-PTが生成する言語の大規模な評価を可能にする。
複数のLLMにまたがる実験の結果、性能は言語的次元によって変動することが示される。これは、pt-PTのような十分に代表されていない言語に対して、多様性と言語学への配慮を反映したベンチマークの必要性を強調している。

日経XTECH

Simon Willison's Blog

Dev.to

Dev.to

Dev.to