バイトレベルのシミュレーションによる言語モデル学習におけるサブワードトークン化の効果の切り分け

arXiv cs.CL / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、制御されたバイトレベルの事前学習パイプラインにより、サブワードトークン化が学習効率とモデル性能の両方に与える寄与を切り分けて検証します。
  • サンプルスループット、語彙スケーリング、サブワード境界の言語的事前知識といった複数の要因を評価し、具体的な仮説をテストしています。
  • 実験の結果、サブワードモデルは生のバイトモデルより優れることが示され、その主な要因として学習スループットの向上が重要だと述べられています。
  • さらに、サブワード境界を明示的な事前知識として、または帰納バイアスとして組み込むことが性能改善に重要である点を強調しています。
  • これらの知見は、今後のバイトレベル/サブワード系言語モデルの事前学習を改善するための示唆を提供します。

要旨: サブワードのトークン化は、現代の大規模言語モデル(LLM)の重要な要素である一方、そのトークン化が学習効率およびモデル性能に与える具体的な寄与は、いまだ十分に理解されていません。本研究では、制御されたバイトレベルの事前学習パイプラインの中でサブワードトークン化の効果を切り分けることで、その影響を分離します。サンプルスループット、語彙のスケーリング、サブワード境界の言語的事前分布といった多様な観点にわたって仮説を定式化し、検証します。バイトレベルの設定でこれらの効果をシミュレーションすることで、なぜサブワードモデルが生のバイトモデルを上回るのかについての理解を深め、将来のバイトレベルおよびサブワードモデルの事前学習を改善するための洞察を提供します。具体的には、学習スループットの向上の重要な役割と、サブワード境界を明示的な事前分布、あるいは帰納バイアスのいずれとして統合することの重要な役割が、私たちの実験によって強調されます。