GLeMM：形態論研究のための大規模多言語データセット

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、派生形態論および語形成の形式–意味関係を対象としたデータ駆動型研究を支援するために特化した新しい大規模多言語データセット「GLeMM」を紹介する。
GLeMMは完全に自動化されており、7つのヨーロッパ言語（ドイツ語、英語、スペイン語、フランス語、イタリア語、ポーランド語、ロシア語）にわたって一貫した設計がなされている。これにより、従来の限られたデータセットと比べて、再現性と汎化性の向上を目指す。
各データセットのエントリには、形態的特徴の自動注釈が含まれており、さらに相当数のサブセットでは、豊富な計算実験を可能にするために意味記述が符号化されている。
著者らは、Wiktionaryソースを用いたデータセット構築パイプラインを説明し、また、本リソースを用いて派生形態構造を同定するための計算手法を検証できることを示すケーススタディを提示している。