ニューラルセルラー・オートマタによる言語モデルの訓練
arXiv cs.AI / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らはニューラルセルラー・オートマタ(NCA)を用いて、LLMsの事前学習のための合成的で非言語的なデータを生成し、合成→自然言語の前学習アプローチを可能にします。
- NCAデータは、自然言語に類似した豊かな時空間構造と統計を示しつつ、制御可能で大規模に低コストで生成できるのが特徴です。
- わずか164MのNCAトークンによる前前学習は、下流の言語モデリングを最大6%向上させ、収束を最大1.6倍速くします。さらに、Common Crawlの16億トークンの自然言語データでの前前学習を、より多くの計算資源がある場合でも上回ることさえあります。
- これらの利得は、GSM8K、HumanEval、BigBench-Liteを含む推論ベンチマークにも転移し、アテンション層が高く転移すること、最適なNCAの複雑さがドメインによって異なることが分かり、標的とした合成分布を作成できるようになります。
大規模言語モデル(LLMs)にとって事前学習は極めて重要であり、ほとんどの表現や能力が獲得されるのもこの段階です。しかし、自然言語による事前学習には問題があります。高品質なテキストは有限であり、人間の偏りを含み、知識と推論が絡み合います。これは、知性へ至る唯一の道が自然言語だけなのかという根本的な問いを投げかけます。私たちはニューラル・セルラー・オートマタ(NCA)を用いて、LLMsの“前前学習”のための合成的で非言語的なデータを生成する方法を提案します。すなわち、合成データでの訓練を行い、その後自然言語データへと移行する、合成→自然言語の前学習法です。NCAデータは、自然言語に似た豊かな時空間構造と統計を示しつつ、制御可能で大規模に安価に生成できます。我々は、わずか164M個のNCAトークンでの前前学習が、下流の言語モデリングを最大6%向上させ、収束を最大1.6倍速くすることを示しました。驚くべきことに、Common Crawlの自然言語1.6Bトークンによる前前学習よりも上回ることさえあります。これらの利得は、GSM8K、HumanEval、BigBench-Liteを含む推論ベンチマークにも転移します。転移を促進する要因を調べると、アテンション層が最も転移しやすいことが分かり、最適なNCAの複雑さはドメインによって異なり、コードはより単純なダイナミクス、数学とウェブテキストはより複雑なダイナミクスを好むことが分かりました。これらの結果は、対象ドメインを狙った合成分布を体系的に調整することを可能にします。より広く見れば、我々の研究は完全に合成データで前学習を行うことで、より効率的なモデルへと道を開きます。