要旨:大規模言語モデル(LLMs)は、さまざまな文ベースの言語現象において顕著な性能を示してきました。しかし、動詞の交替のような文を跨ぐパラダイム的パターンを捉える能力は、依然として十分には探究されていません。
本研究では、4言語に対して、動詞の交替に関する系統的跨文知識を検証することを目的としたパラダイムベースのデータセットを整理して提示します(英語・ドイツ語・イタリア語の状態の変化を表す構文および対象の落とし構文、そしてヘブライ語のビンヤニムを含む)。
データセットには、数千問の Blackbird Language Matrices(BLMs)問題が含まれます。BLMタスクは、言語のために特別に考案された RPM/ARC に似たタスクで、統語的・意味論的ルールに従ってパターンを完成させる文をモデルが選択する、統制された言語学的パズルです。
複雑さの異なる3種類のテンプレートを導入し、合成データと自然データの両方に、言語学的知識に基づくデータ拡張戦略を適用します。
英語・イタリア語・ドイツ語・ヘブライ語における簡単なベースライン性能結果を提示し、データセットの診断的有用性を示します。
言語間の動詞交替データセット: BLMテンプレートとデータ拡張戦略
arXiv cs.CL / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、英語・ドイツ語・イタリア語・ヘブライ語の4言語にまたがる動詞交替のためのキュレーション済みパラダイムベースデータセットを提示し、文を跨ぐ状態変化および目的語落とし構文に関する知識を検証する。
- データセットは数千の Blackbird Language Matrices(BLMs)問題から成り、言語固有の RPM/ARC に類似したタスクとして、モデルは統語的および意味的規則に従ってパターンを完成させる文を選択しなければならない。
- 複雑さの異なる3種類のテンプレートを導入し、合成データと自然データの双方に対して言語学的に情報を取り入れたデータ拡張を適用する。
- 英語、イタリア語、ドイツ語、ヘブライ語におけるベースラインの結果は、LLMs が動詞交替を把握する能力を評価する際の診断的有用性をこのデータセットが示している。
