重み共有(Weight Tying)がトークン埋め込みを出力空間へバイアスする
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、言語モデルにおいて重み共有(入力と出力の埋め込み/アン埋め込み行列間でパラメータを共有すること)が埋め込み空間にどのような影響を与えるかを調査し、その結果、同等規模の重み非共有モデルの入力埋め込みよりも、出力(アン埋め込み)空間とより整合することを見出す。
- 重み共有された行列は、入力表現を支えるために必要な勾配ではなく、出力予測に関する勾配が学習の初期段階で支配的になるため、出力予測へバイアスされると主張する。
- チューニングされたレンズ(tuned lens)分析を用いることで、著者らはこのバイアスが残差ストリームへ流れ込む計算を行う初期層の処理を損ない、その有効性を低下させることを示す。
- 学習中に入力勾配のスケーリングを行うとアン埋め込みバイアスが減少することを通じて、因果的な証拠を提示し、勾配の不均衡(gradient-imbalance)メカニズムを支持する。
- 本結果は、重み共有がスケールにおいて性能を劣化させ得る理由を機構的に説明するものであり、さらに、埋め込み行列が全パラメータに占める割合が大きくなる小規模LLMに対する示唆も与える。



