AI Navigate

[P] 重みノルムクリッピングがグロッキングを18-66×加速 | 300個のシードで失敗ゼロ | リポジトリ内のPDF

Reddit r/MachineLearning / 2026/3/18

📰 ニュースModels & Research

要点

  • 本手法は、最適化ステップごとにデコーダの重みベクトルを行ごとにL2ノルムでクリップする。追加のメモリを必要とせず、ウェイト減衰も適用しない。
  • グロッキング風のベンチマークでは、2層モデル(422kパラメータ)はLion+Clipを用いたAdamW基準に対して66倍の高速化を達成し、8層モデル(1.6Mパラメータ)は300個のシードで失敗ゼロ、エッジ初期化により四分位範囲が縮小する18倍の高速化を達成した。
  • 著者らは実験がデコーダーのみのトランスフォーマーのモジュラー演算に限定されており、277MパラメータのLLMテストを実施中で、その結果は他のモデルへ転用されるとは限らず、まだ一般化を主張していない。
  • コードとPDFはGitHub(cliptogrok)で公開されており、arXivの承認(cs.LG)を求めている。
[P] 重みノルムクリッピングは Grokking を 18–66× 加速 | 300個のシードで失敗ゼロ | リポジトリ内の PDF

https://preview.redd.it/9hxa34bwhopg1.png?width=3600&format=png&auto=webp&s=909e4e1ba2feebbab94651d125a5c8e7591c4ca6

300個のシードで失敗ゼロ。66×の高速化。コードは5行。

私たちは二人の独立した研究者です。 手法: 各行ごとに ℓ₂ クリッピングを、各最適化ステップ後にデコーダの重みに適用します。追加のメモリは不要、ウェイト減衰も不要です。

標準的な Grokking ベンチマークでの結果(モジュラー算術、デコーダーのみのトランスフォーマー、Grokfast [2024] と同じ設定):

  • 2層(422k パラメータ):Lion+Clip を用いた AdamW ベースラインより 66×上回る
  • 8層(1.6M パラメータ):ベースラインより 18×、300 個のシードで失敗ゼロ、エッジ初期化で IQR が 61–72% 減少

正直な範囲: すべての実験はモジュラー算術です。277M パラメータの LLM テストを実施していますが、私たちのハードウェア上では数週間かかり、結果がクリーンに転送されない可能性があります — 私たちはそれを否定しません。進捗、データセット、完全なモデル/トレーニングパラメータを共有することを喜んでいます。

コード + PDF:
https://github.com/NiftyliuS/cliptogrok
https://github.com/NiftyliuS/cliptogrok/blob/main/cliptogrok.pdf

cs.LG の arXiv の承認を求めています — ご希望なら DM をお願いします。

投稿者: /u/niftylius
[リンク] [コメント]