BiST:文構造および時制分類のための、文レベルのベンガル語—英語バイリンガル・コーパスのゴールドスタンダード

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、文法分類を2つの次元(統語構造:Simple/Complex/Compound/Complex-Compound、時制:Present/Past/Future)に基づいて行うための、厳選されたベンガル語—英語の文レベル・バイリンガル・コーパスBiSTを紹介する。
  • BiSTは、オープンライセンスの百科事典系ソースと自然に構成された会話文から構築され、前処理と言語識別の後、30,534文(英語17,465文、ベンガル語13,069文)を含む。
  • 分かりやすさ(注釈の信頼性)は、3名の独立したアノテータによって検証され、次元別のFleiss Kappaスコアが0.82(構造)および0.88(時制)であり、再現可能なラベル付けを裏付ける。
  • ベースライン実験では、補完的な言語固有表現を用いるデュアルエンコーダ型アーキテクチャが、強力な多言語エンコーダを上回ることが示される。
  • 本コーパスは、制御されたテキスト生成、自動文法フィードバック、クロスリンガル表現学習といった下流タスクのための、言語学的に根拠づけられたリソースとして位置づけられている。