バイリンガルなベビーLMを育てる：小規模モデルを用いて多言語言語獲得を調査する

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、言語モデルの学習を、多言語への曝露条件を制御する代理として用いることで、子どもが2つの言語を同時に獲得する可能性を検討する。
研究者らは、合成データに機械翻訳を加えることで、対応する（マッチした）100M語の単言語データセットとバイリンガルデータセットを生成し、相関研究でよく見られる交絡要因を抑えた。
GPT-2モデルを、異なるバイリンガル曝露レジームで学習させ、モデル規模に応じて、パープレキシティ、文法性、意味知識を評価する。
結果は、バイリンガルモデルが、単言語モデルの「1言語における」性能と同程度に各言語を学習することを示すと同時に、もう一方の言語でも強い能力を獲得していることを明らかにした。
著者らは、非特定（アグノスティック）な統計的学習者にとって、バイリンガル入力に原理的な大きな不利がないこと、また曝露レジームの違いは結果を強くは変えないと結論づけている。