[P] 重みノルムクリッピングがグロッキングを18-66×加速 | 300個のシードで失敗ゼロ | リポジトリ内のPDF

Reddit r/MachineLearning / 2026/3/18

📰 ニュースModels & Research

原文を読む →

共有:

要点

本手法は、最適化ステップごとにデコーダの重みベクトルを行ごとにL2ノルムでクリップする。追加のメモリを必要とせず、ウェイト減衰も適用しない。
グロッキング風のベンチマークでは、2層モデル（422kパラメータ）はLion+Clipを用いたAdamW基準に対して66倍の高速化を達成し、8層モデル（1.6Mパラメータ）は300個のシードで失敗ゼロ、エッジ初期化により四分位範囲が縮小する18倍の高速化を達成した。
著者らは実験がデコーダーのみのトランスフォーマーのモジュラー演算に限定されており、277MパラメータのLLMテストを実施中で、その結果は他のモデルへ転用されるとは限らず、まだ一般化を主張していない。
コードとPDFはGitHub（cliptogrok）で公開されており、arXivの承認（cs.LG）を求めている。

[P] 重みノルムクリッピングは Grokking を 18–66× 加速 | 300個のシードで失敗ゼロ | リポジトリ内の PDF

https://preview.redd.it/9hxa34bwhopg1.png?width=3600&format=png&auto=webp&s=909e4e1ba2feebbab94651d125a5c8e7591c4ca6

300個のシードで失敗ゼロ。66×の高速化。コードは5行。

私たちは二人の独立した研究者です。 手法： 各行ごとに ℓ₂ クリッピングを、各最適化ステップ後にデコーダの重みに適用します。追加のメモリは不要、ウェイト減衰も不要です。

標準的な Grokking ベンチマークでの結果（モジュラー算術、デコーダーのみのトランスフォーマー、Grokfast [2024] と同じ設定）：

2層（422k パラメータ）：Lion+Clip を用いた AdamW ベースラインより 66×上回る
8層（1.6M パラメータ）：ベースラインより 18×、300 個のシードで失敗ゼロ、エッジ初期化で IQR が 61–72% 減少

正直な範囲： すべての実験はモジュラー算術です。277M パラメータの LLM テストを実施していますが、私たちのハードウェア上では数週間かかり、結果がクリーンに転送されない可能性があります — 私たちはそれを否定しません。進捗、データセット、完全なモデル/トレーニングパラメータを共有することを喜んでいます。

コード + PDF：
https://github.com/NiftyliuS/cliptogrok
https://github.com/NiftyliuS/cliptogrok/blob/main/cliptogrok.pdf

cs.LG の arXiv の承認を求めています — ご希望なら DM をお願いします。

投稿者： /u/niftylius
[リンク] [コメント]

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

Reddit r/MachineLearning

[P] 重みノルムクリッピングがグロッキングを18-66×加速 | 300個のシードで失敗ゼロ | リポジトリ内のPDF

要点

関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer