広告

重み共有(Weight Tying)がトークン埋め込みを出力空間へバイアスする

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語モデルにおいて重み共有(入力と出力の埋め込み/アン埋め込み行列間でパラメータを共有すること)が埋め込み空間にどのような影響を与えるかを調査し、その結果、同等規模の重み非共有モデルの入力埋め込みよりも、出力(アン埋め込み)空間とより整合することを見出す。
  • 重み共有された行列は、入力表現を支えるために必要な勾配ではなく、出力予測に関する勾配が学習の初期段階で支配的になるため、出力予測へバイアスされると主張する。
  • チューニングされたレンズ(tuned lens)分析を用いることで、著者らはこのバイアスが残差ストリームへ流れ込む計算を行う初期層の処理を損ない、その有効性を低下させることを示す。
  • 学習中に入力勾配のスケーリングを行うとアン埋め込みバイアスが減少することを通じて、因果的な証拠を提示し、勾配の不均衡(gradient-imbalance)メカニズムを支持する。
  • 本結果は、重み共有がスケールにおいて性能を劣化させ得る理由を機構的に説明するものであり、さらに、埋め込み行列が全パラメータに占める割合が大きくなる小規模LLMに対する示唆も与える。

Abstract

重み共有、すなわち入力埋め込み行列と出力埋め込み行列の間でパラメータを共有することは、言語モデル設計において一般的な実践ですが、学習された埋め込み空間への影響は依然として十分に理解されていません。本論文では、結び付けられた(tied)埋め込み行列が、同程度のパラメータを持つ結び付いていない(untied)モデルの入力埋め込みよりも、出力(非埋め込み、unembedding)行列により強く整合することを示します。これは、共有された行列が入力表現よりも出力予測のために主として形作られていることを示唆します。この非埋め込みバイアスは、学習の初期段階において出力側の勾配が支配的になることによって生じます。調整レンズ分析(tuned lens analysis)を用いることで、このバイアスが初期層の計算に対して負の影響を与え、残差ストリームへの寄与がより効果的にならないことを示します。学習中に入力側の勾配をスケーリングすることで、このバイアスは低減され、勾配の不均衡が果たす役割に関する因果的証拠が得られます。これは、重み共有が埋め込み行列を出力予測向けに最適化する一方で、それが入力表現として果たす役割を損なうことを支持する機構的な証拠です。これらの結果は、重み共有が大規模化に伴って性能を損なうことがある理由を説明するのに役立ち、埋め込み行列が総パラメータ数の大きな割合を占めるような、より小さなLLMの学習にも示唆を与えます。

広告