言語間の動詞交替データセット: BLMテンプレートとデータ拡張戦略

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、英語・ドイツ語・イタリア語・ヘブライ語の4言語にまたがる動詞交替のためのキュレーション済みパラダイムベースデータセットを提示し、文を跨ぐ状態変化および目的語落とし構文に関する知識を検証する。
データセットは数千の Blackbird Language Matrices（BLMs）問題から成り、言語固有の RPM/ARC に類似したタスクとして、モデルは統語的および意味的規則に従ってパターンを完成させる文を選択しなければならない。
複雑さの異なる3種類のテンプレートを導入し、合成データと自然データの双方に対して言語学的に情報を取り入れたデータ拡張を適用する。
英語、イタリア語、ドイツ語、ヘブライ語におけるベースラインの結果は、LLMs が動詞交替を把握する能力を評価する際の診断的有用性をこのデータセットが示している。

要旨：大規模言語モデル（LLMs）は、さまざまな文ベースの言語現象において顕著な性能を示してきました。しかし、動詞の交替のような文を跨ぐパラダイム的パターンを捉える能力は、依然として十分には探究されていません。
本研究では、4言語に対して、動詞の交替に関する系統的跨文知識を検証することを目的としたパラダイムベースのデータセットを整理して提示します（英語・ドイツ語・イタリア語の状態の変化を表す構文および対象の落とし構文、そしてヘブライ語のビンヤニムを含む）。
データセットには、数千問の Blackbird Language Matrices（BLMs）問題が含まれます。BLMタスクは、言語のために特別に考案された RPM/ARC に似たタスクで、統語的・意味論的ルールに従ってパターンを完成させる文をモデルが選択する、統制された言語学的パズルです。
複雑さの異なる3種類のテンプレートを導入し、合成データと自然データの両方に、言語学的知識に基づくデータ拡張戦略を適用します。
英語・イタリア語・ドイツ語・ヘブライ語における簡単なベースライン性能結果を提示し、データセットの診断的有用性を示します。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

言語間の動詞交替データセット: BLMテンプレートとデータ拡張戦略

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer