[P] Grokの更新にクリップ：Weight Norm Clippingを39〜249×に | 6つのタスク（mod演算、混合オペレーション、S5パーミュテーション） | タスクごとの max_norm の測定値

Reddit r/MachineLearning / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

研究者らは「Clip to Grok」アプローチの更新を報告し、モジュラー乗算から、混合モジュラー演算やS5パーミュテーション合成タスクなど、より広範な6つの代数タスクにまで、重みノルムクリッピングを拡張した。
手法は従来どおり、オプティマイザーステップのたびにデコーダ重みに対して行ごとの ℓ2 クリッピングを適用するもので、weight decay（重み減衰）なし、追加メモリ負荷なしを維持しており、提供された norms.py コードで実装されている。
さまざまなタスクにおいて、クリッピングは95%の検証精度に到達するまでに必要なステップ数（中央値）を大幅に減少させ、AdamWベースラインと比較して、約39×〜87×の速度向上が報告されている。
彼らは、タスクごとの最適な max_norm 値を特定している（例：mul mod 97 では2.0、他のいくつかのタスクでは1.5〜1.75）。さらに、各タスクの max_norm に関するアブレーション／計測の詳細も含めている。
拡張されたベンチマークには、mod 97 の単一操作タスクが4つ、mod同士の混合を扱う単一データセットが1つ、そして120要素の非可換なS5パーミュテーション設定が含まれている。

[P] Clip to Grok Update: Weight Norm Clipping now 39–249× | 6 Tasks (mod arithmetic, mixed ops, S5 permutation) | max_norm Measured Per Task

最大ノルムのアブレーションによる、mul mod -97 でのシード0結果（混合加算・減算・乗算・除算モード p97、および S5 パーミュテーション）

以前の投稿の更新です。私たちは独立した2名の研究者です。

前回の投稿から、モジュラー乗算を6つの代数タスクへ拡張しました：

4つのモジュラー算術演算（加算・減算・乗算・除算 mod 97）
4つすべて（加算・減算・乗算・除算）をall-modとして単一データセットに混ぜた混合タスク
S5 パーミュテーションの合成（非可換、120要素）。

手法（変更なし）： オプティマイザの各ステップ後に、デコーダ重みに対して行ごとのℓ₂クリッピングを行います。重み減衰なし、追加のメモリなし。実装： norms.py

95% の検証精度に到達するまでの中央値（Lion+Clip、タスクごとに各値につき n=100 シード、各タスクでの最適 max_norm）：

Task	Median [95% CI]	AdamW baseline	Seed 0 speedup	max_norm
mul mod 97	550 [530–560]	35,040	66×	2.0
add mod 97	570 [555–590]	40,240	69×	1.75
sub mod 97	775 [740–870]	57,670	87×	1.5
div mod 97	730 [700–790]	71,160	39×	1.75
all-mod (mixed)	3,090 [2880–3300]	86,400	50×	1.75
S5 permutation	1,348 [1252–1424]	390,896	249×	1.0

S5 の結果は私たちを驚かせました。ベースラインは 390,896 ステップかかります。Lion+Clip の中央値は 1,348 です。非可換な構造のために、より狭いクリッピング半径が必要になりました—S5 は max_norm=1.0 で鋭く最適であり、1.25 を超えると急速に悪化します。一方、モジュラー乗算は 2.0 に満足しています。

最も興味深い発見は：max_norm は代数的な複雑さと相関することです。逆数に依存する操作（div, sub）は 1.5–1.75 を好みます。直接的な操作（mul, add）は最大 2.0 まで許容します。混合タスクや非可換タスクは、よりタイトに引き寄せます。右下のパネルは、この3種類すべてのタスクタイプにわたってそれを示しており、各値につき n=100 シードです。

合計の実験回数：

Adam	Lion	SignSGD	Total
Runs	2,126	7,137	2,125
Unique Seeds	821	2,521	822

ベースラインを含む

正直な範囲： すべての実験は代数タスク（モジュラー算術とパーミュテーショングループ）です。結果が他の領域へそのまま移る可能性はありません—私たちはそのような主張はしていません。

コード + PDF：
https://github.com/NiftyliuS/cliptogrok
https://github.com/NiftyliuS/cliptogrok/blob/main/cliptogrok.pdf

fast-weight-attention において、lucidrains が実装も提供しています。

私たちはまだ arXiv の認定（cs.LG）を求めています—可能なら DM してください。

submitted by /u/niftylius
[link] [comments]

Black Hat Asia

AI Business

柴田社長肝いり「Renesas 365」姿現す、将来はAIエージェントと連携

日経XTECH

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から

日経XTECH

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

日経XTECH

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

日経XTECH

[P] Grokの更新にクリップ：Weight Norm Clippingを39〜249×に | 6つのタスク（mod演算、混合オペレーション、S5パーミュテーション） | タスクごとの max_norm の測定値

要点

関連記事

Black Hat Asia

柴田社長肝いり「Renesas 365」姿現す、将来はAIエージェントと連携

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

柴田社長肝いり「Renesas 365」姿現す、将来はAIエージェントと連携

ラピダスCTO、1ナノでTSMCと「半年差に」 まずは信頼獲得から

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から