| 実験中のモデルの継続的な学習をモニタリングしています。従来型トランスフォーマーのMLPデコーダを、私の K-Splanifolds論文 で説明した離散的な低次元スプライン多様体幾何に置き換えました。画像は、学習した5Bトークンの間で、全128層のうち層96がどのように発達したかを示しています。18Mモデルは驚くほどうまく機能しており、損失も減少しているので、停滞している兆候が見えるまで学習を続けます。みなさんがその発達の様子を面白いと感じてくれればと思って投稿しました。 [リンク] [コメント] |
5Bトークンで学習する間に、私のLLMのデコーダブロックがどう変わったか
Reddit r/LocalLLaMA / 2026/4/12
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 著者は、実験的なLLM学習ランについて述べており、その中でトランスフォーマーのMLPデコーダブロックを、自身のK‑Splanifolds論文に基づく離散的な、より低次元のスプライン多様体(spline manifold)幾何学アプローチで置き換えた。
- 著者は、5Bトークンの学習中にモデルをモニタリングし、その過程で全128層のうち96層目がどのように視覚的に変化していくかを示す。
- 得られた約18Mパラメータのモデルが驚くほど良好に機能し、学習損失が引き続き低下していると述べている。
- 著者は、損失の停滞の兆候が見られるまで学習を続け、その変化を修正したデコーダ設計の非公式な検証として用いる予定だ。




