| 300個のシードで失敗ゼロ。66×の高速化。コードは5行。 私たちは二人の独立した研究者です。 手法: 各行ごとに ℓ₂ クリッピングを、各最適化ステップ後にデコーダの重みに適用します。追加のメモリは不要、ウェイト減衰も不要です。 標準的な Grokking ベンチマークでの結果(モジュラー算術、デコーダーのみのトランスフォーマー、Grokfast [2024] と同じ設定):
正直な範囲: すべての実験はモジュラー算術です。277M パラメータの LLM テストを実施していますが、私たちのハードウェア上では数週間かかり、結果がクリーンに転送されない可能性があります — 私たちはそれを否定しません。進捗、データセット、完全なモデル/トレーニングパラメータを共有することを喜んでいます。 コード + PDF: cs.LG の arXiv の承認を求めています — ご希望なら DM をお願いします。 [リンク] [コメント] |
[P] 重みノルムクリッピングがグロッキングを18-66×加速 | 300個のシードで失敗ゼロ | リポジトリ内のPDF
Reddit r/MachineLearning / 2026/3/18
📰 ニュースModels & Research
要点
- 本手法は、最適化ステップごとにデコーダの重みベクトルを行ごとにL2ノルムでクリップする。追加のメモリを必要とせず、ウェイト減衰も適用しない。
- グロッキング風のベンチマークでは、2層モデル(422kパラメータ)はLion+Clipを用いたAdamW基準に対して66倍の高速化を達成し、8層モデル(1.6Mパラメータ)は300個のシードで失敗ゼロ、エッジ初期化により四分位範囲が縮小する18倍の高速化を達成した。
- 著者らは実験がデコーダーのみのトランスフォーマーのモジュラー演算に限定されており、277MパラメータのLLMテストを実施中で、その結果は他のモデルへ転用されるとは限らず、まだ一般化を主張していない。
- コードとPDFはGitHub(cliptogrok)で公開されており、arXivの承認(cs.LG)を求めている。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning