バイリンガルなベビーLMを育てる:小規模モデルを用いて多言語言語獲得を調査する
arXiv cs.CL / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、言語モデルの学習を、多言語への曝露条件を制御する代理として用いることで、子どもが2つの言語を同時に獲得する可能性を検討する。
- 研究者らは、合成データに機械翻訳を加えることで、対応する(マッチした)100M語の単言語データセットとバイリンガルデータセットを生成し、相関研究でよく見られる交絡要因を抑えた。
- GPT-2モデルを、異なるバイリンガル曝露レジームで学習させ、モデル規模に応じて、パープレキシティ、文法性、意味知識を評価する。
- 結果は、バイリンガルモデルが、単言語モデルの「1言語における」性能と同程度に各言語を学習することを示すと同時に、もう一方の言語でも強い能力を獲得していることを明らかにした。
- 著者らは、非特定(アグノスティック)な統計的学習者にとって、バイリンガル入力に原理的な大きな不利がないこと、また曝露レジームの違いは結果を強くは変えないと結論づけている。




