効率的なクロススケール・ハイパーパラメータ転送による確率的トランスフォーマーのスケーリング
arXiv cs.CL / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、文脈に応じた単語表現のための白箱型の確率的モデルであるProbabilistic Transformer(PT)をスケールさせる手法を提案する。
- PTは標準的なトランスフォーマーよりもハイパーパラメータ選択に対する頑健性が低いが、著者らはMaximal Update Parametrization(muP)を用いて、小型モデルで最適化したハイパーパラメータを追加調整なしで大型モデルへ転送できるようにする。
- muPに基づくパラメータ再スケーリングにより、PTを約0.4Bパラメータまでスケールでき、追加のチューニングは不要である。
- 実験では、Masked Language Modeling(MLM)において、同一のパラメータ予算の条件で標準トランスフォーマーよりもPTが一貫して優れている。
- 著者らは、この成果を将来的に確率的モデルをより大規模に実運用しやすくするための一歩と位置づけている。


