AI Navigate

二言語設定における子ども向け話し言葉から学ぶ: フランス語-英語のケーススタディ

arXiv cs.CL / 2026/3/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、サイズを揃えたデータの下で英語-フランス語設定に対する小型言語モデルを体系的に分析し、モノリンガル、バイリンガル、クロスリンガルな事前学習を比較する。
  • 訓練コーパスとして、子ども向け話し言葉(約250万トークン)と多ドメインのフランス語データ(約1000万トークン)の2つを対比し、新たなフランス語リソース(QAMR、QASRL)と多言語コーパスを導入する。
  • 結果は、Wikipediaによる事前学習が意味的タスクに有益である一方、子ども向け話し言葉による事前学習はモノリンガル設定で文法判断を改善する。さらに、バイリンガルな事前学習はテキスト含意推論での利得をもたらし、特にフランス語で顕著である。
  • その発見は BabyBERTa、RoBERTa、LTG-BERT にわたる同様のパターンを再現しており、これらの傾向がアーキテクチャ全体でより広く適用可能であることを示唆している。

要約: 発達的に妥当な言語モデルの研究は主に英語に焦点を当てており、多言語設定に関する未解決の問いを残している。私たちは、厳密にサイズを揃えたデータ条件の下で BabyBERTa を英語-フランス語のシナリオへ拡張することにより、モノリンガル、バイリンガル、およびクロスリンガル設定を網羅した、コンパクトな言語モデルの体系的な研究を行います。設計は二つの訓練コーパスのタイプを対比します: (i) 子ども向け発話(約250万トークン)、BabyBERTa および関連研究に倣う、(ii) 多ドメインコーパス(約1000万トークン)、BabyLM フレームワークをフランス語へ拡張。公正な評価を可能にするため、QAMR および QASRL のフランス語版のほか、英語とフランス語の多ドメインコーパスを含む新しいリソースも導入します。私たちは、構文タスクと意味タスクの両方でモデルを評価し、Wikipedia のみをデータとして訓練したモデルと比較します。結果は文脈依存的な効果を示します。Wikipedia での訓練は意味タスクに一貫して有益であるのに対し、子ども向け話しことばは単言語設定での文法判断を改善します。バイリンガル事前学習はテキスト含意に顕著な改善をもたらし、特にフランス語で強い改善が見られます。重要なのは、BabyBERTa、RoBERTa、LTG-BERT の間でも同様のパターンが現れ、アーキテクチャ間で一貫した傾向が示唆されることです。