自然および合成の構造化データの比較:フランス語とイタリア語における受動態の交替に関する研究
arXiv cs.CL / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルの学習と評価において、自然な構造化データセットと合成データセットがどのように影響するかを調査し、テストケースとしてフランス語とイタリア語における受動態の交替(passive verb alternation)を用いる。
- Universal Dependencies から取得した自然文、または合成文生成によって作成した構造テンプレートのいずれかを使ってインスタンス化する形で、Blackbird Language Matrices(BLMs)を採用する。
- 合成データセットで訓練し評価したモデルは「天井(ceiling)」に近い性能に到達するが、自然文への一般化を確実に行えない。
- それに対して、自然データで訓練したモデルは、自然および合成の両方のテストスイートで堅牢に機能し、抽象的な言語パターンをより強く捉えていることを示唆する。
- 著者らは、これらの結果は、LLMの統語的・意味的知識を探るための取り組みにおいて、自然データと構造化された評価設定の価値を支持していると論じている。
広告




