広告

Baby Scale: 個々の子どもの言語入力で訓練されたモデルを調査する

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、子どもの自然な言語入力(BabyViewの動画文字起こし)を用いて、LLMが「人間の子どもが受け取るデータ量」に近い条件でどのように学習・振る舞うかをベンチマークし、「データギャップ」の正体を調べています。
  • 子どもデータで学習した言語モデルは文法課題では許容できるスケーリングを示す一方、意味や世界知識を要する課題では合成データで学習したモデルより伸びが弱いことが報告されています。
  • さらに、子どもごとの経験が反映されたデータではモデル性能に大きなばらつきがあり、データ品質を左右する言語的予測因子(分布的特徴と相互作用的特徴の組み合わせ)が重要だと示されています。
  • 個々の単語に対するモデルの尤度が、子どもがその単語を学習する度合いと相関することから、子ども向け入力の性質がモデル学習と人間の言語発達の双方に影響しうると結論づけています。

要旨: 現代の言語モデル(LM)には、有用なふるまいを生成し始める前に、人間の子どもが受け取る学習データの語数よりも桁違いに多い語数の学習データでトレーニングされる必要がある。この「データギャップ」がどのような性質で、どこから生じるのかを評価するには、言語知識が子どもの自然な学習データからどのように生まれるかを理解するために、人間の尺度に合わせたデータセットでLMをベンチマークしなければならない。BabyViewデータセット(6〜36か月の子どもの動画)の書き起こしを用いて、(1) 子ども規模のデータ環境におけるスケーリング性能、(2) 異なる子どもの経験に由来するデータセット間でのモデル性能のばらつきと、データセット品質を予測する言語的指標、(3) モデルと言語学習の子ども側の成果との関係を調査する。子どもデータで学習したLMは文法タスクでは許容可能なスケーリングを示すが、意味や世界知識のタスクでは合成データで学習したモデルよりもスケーリングが低い。また、異なる子どもに由来するデータにおいては、かなり大きなばらつきも観察される。データセットの規模を超えて、性能は分布論的特徴と相互作用論的特徴の組み合わせと最も強く関連しており、概ね、子どもの言語発達にとって質の高い入力を特徴づけるものと一致している。最後に、個々の語に対するモデルの尤度は、それらの語に関する子どもの学習と相関しており、子ども向け入力の性質が、モデルの学習と人間の言語発達の両方に影響しうることを示唆している。総合すると、言語データが学習に効率的であるための性質を理解することは、小規模な言語モデルをより強力にするだけでなく、人間の言語獲得に関する洞察も与えうる。

広告