読む前に聴いて唱えよ:LM事前学習における「美しさのラダー」

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、MAESTROデータセットのピアノ演奏を用い、音楽→言語の順でTransformerを事前学習すると言語獲得が大きく促進されることを示しています。
  • 「音楽 → 詩 → 散文」という発達的なパイプラインを提案し、ランダム初期化に対して17.5%の困惑度(perplexity)改善を観測し、内部計算と埋め込みで異なる要素が直交的に改善することを報告しています。
  • 学習の立ち上がりだけの一時的な効果ではなく、複数回の検証で、プラトー時に5.5%のギャップが持続しつつ収束も速いことが確認されています。
  • 実データの音楽は、合成パターンと同程度の転移限界に到達しつつ、必要データ量はその約3分の1で済むことが示されます。
  • モデル容量に応じて最適な事前学習データ量が変化する(小規模から中規模にかけて有利が増減する)可能性が、スケーリング実験から示唆されます。

要旨: 本研究では、言語の前に音楽でTransformerを事前学習することで、言語獲得が大幅に加速することを示します。ピアノ演奏(MAESTROデータセット)を用い、発達的パイプライン――音楽 o o 散文――を行うことで、ランダム初期化と比べて 17.5
\%
のパープレキシティが改善されます(p < 0.001、5シード)。さらに、音楽と詩は、それぞれ直交するモデル構成要素を改善します(内部計算と埋め込み)。収束テストにより、これは一時的な先行スタートではないことが確認されます。d o
! 564では、多シード検証(5シード)により、プラトー時点で持続的に5.5
t\% のギャップが観測されます(
p = 0.017)。このパイプラインは、すべての実験実行でより速く収束し、より低い損失へ到達します。実際の音楽は、合成パターンの転移上限に相当し、必要データ量はその3分の1です。また、スケーリング実験では、最適な事前学習データ量がモデル容量に応じて変化することが明らかになりました(d o
a16 から d o
a64 にかけて、より大きなデータセットがそれぞれ -3\% +3\% +6\% の優位を持つ)。
本研究で扱うスケール(
d\in\{16,32,64\}、最大で約{\sim}400$Kパラメータ)において、これらの結果は、容量に依存したデータキュレーションの原理を示唆し、また、人間の創造的な出力という構造化された素材が、小規模言語モデルのための効率的な事前学習基盤となり得ることを示しています。現代的な事前学習スケールでより強い結論を得るには、実験規模を実質的に大きくする必要があります。