| 最大ノルムのアブレーションによる、mul mod -97 でのシード0結果(混合加算・減算・乗算・除算モード p97、および S5 パーミュテーション) 以前の投稿の更新です。私たちは独立した2名の研究者です。 前回の投稿から、モジュラー乗算を6つの代数タスクへ拡張しました:
手法(変更なし): オプティマイザの各ステップ後に、デコーダ重みに対して行ごとのℓ₂クリッピングを行います。重み減衰なし、追加のメモリなし。実装: norms.py 95% の検証精度に到達するまでの中央値(Lion+Clip、タスクごとに各値につき n=100 シード、各タスクでの最適 max_norm):
S5 の結果は私たちを驚かせました。ベースラインは 390,896 ステップかかります。Lion+Clip の中央値は 1,348 です。非可換な構造のために、より狭いクリッピング半径が必要になりました—S5 は max_norm=1.0 で鋭く最適であり、1.25 を超えると急速に悪化します。一方、モジュラー乗算は 2.0 に満足しています。 最も興味深い発見は:max_norm は代数的な複雑さと相関することです。逆数に依存する操作(div, sub)は 1.5–1.75 を好みます。直接的な操作(mul, add)は最大 2.0 まで許容します。混合タスクや非可換タスクは、よりタイトに引き寄せます。右下のパネルは、この3種類すべてのタスクタイプにわたってそれを示しており、各値につき n=100 シードです。 合計の実験回数:
ベースラインを含む 正直な範囲: すべての実験は代数タスク(モジュラー算術とパーミュテーショングループ)です。結果が他の領域へそのまま移る可能性はありません—私たちはそのような主張はしていません。 コード + PDF: fast-weight-attention において、lucidrains が実装も提供しています。 私たちはまだ arXiv の認定(cs.LG)を求めています—可能なら DM してください。 [link] [comments] |
[P] Grokの更新にクリップ:Weight Norm Clippingを39〜249×に | 6つのタスク(mod演算、混合オペレーション、S5パーミュテーション) | タスクごとの max_norm の測定値
Reddit r/MachineLearning / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 研究者らは「Clip to Grok」アプローチの更新を報告し、モジュラー乗算から、混合モジュラー演算やS5パーミュテーション合成タスクなど、より広範な6つの代数タスクにまで、重みノルムクリッピングを拡張した。
- 手法は従来どおり、オプティマイザーステップのたびにデコーダ重みに対して行ごとの ℓ2 クリッピングを適用するもので、weight decay(重み減衰)なし、追加メモリ負荷なしを維持しており、提供された norms.py コードで実装されている。
- さまざまなタスクにおいて、クリッピングは95%の検証精度に到達するまでに必要なステップ数(中央値)を大幅に減少させ、AdamWベースラインと比較して、約39×〜87×の速度向上が報告されている。
- 彼らは、タスクごとの最適な max_norm 値を特定している(例:mul mod 97 では2.0、他のいくつかのタスクでは1.5〜1.75)。さらに、各タスクの max_norm に関するアブレーション/計測の詳細も含めている。
- 拡張されたベンチマークには、mod 97 の単一操作タスクが4つ、mod同士の混合を扱う単一データセットが1つ、そして120要素の非可換なS5パーミュテーション設定が含まれている。



