MultiBLiMP 1.0:言語のミニマルペアを大量に集めた多言語ベンチマーク

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • MultiBLiMP 1.0は言語の「ミニマルペア」を対象とする多言語ベンチマークで、101言語と主語—動詞の一致の2種類をカバーしています。
  • データセットには128,000件超のミニマルペアが含まれ、Universal DependenciesとUniMorphのリソースを基にしたエンドツーエンドの自動生成パイプラインで作成されています。
  • このベンチマークは、LLMが非常に多くの言語にまたがって文法的な違いをどれだけ適切に扱えるかを評価することを目的としています。
  • 提示されている結果からは、現状の最先端手法が低リソース言語のモデリングに依然として苦戦しており、明確な制約が浮かび上がります。
  • MultiBLiMP 1.0は、多言語での言語理解・一致挙動評価としては非常に大規模な取り組みです。