BiST:文構造および時制分類のための、文レベルのベンガル語—英語バイリンガル・コーパスのゴールドスタンダード
arXiv cs.CL / 2026/4/7
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、文法分類を2つの次元(統語構造:Simple/Complex/Compound/Complex-Compound、時制:Present/Past/Future)に基づいて行うための、厳選されたベンガル語—英語の文レベル・バイリンガル・コーパスBiSTを紹介する。
- BiSTは、オープンライセンスの百科事典系ソースと自然に構成された会話文から構築され、前処理と言語識別の後、30,534文(英語17,465文、ベンガル語13,069文)を含む。
- 分かりやすさ(注釈の信頼性)は、3名の独立したアノテータによって検証され、次元別のFleiss Kappaスコアが0.82(構造)および0.88(時制)であり、再現可能なラベル付けを裏付ける。
- ベースライン実験では、補完的な言語固有表現を用いるデュアルエンコーダ型アーキテクチャが、強力な多言語エンコーダを上回ることが示される。
- 本コーパスは、制御されたテキスト生成、自動文法フィードバック、クロスリンガル表現学習といった下流タスクのための、言語学的に根拠づけられたリソースとして位置づけられている。




