5Bトークンで学習する間に、私のLLMのデコーダブロックがどう変わったか

Reddit r/LocalLLaMA / 2026/4/12

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

著者は、実験的なLLM学習ランについて述べており、その中でトランスフォーマーのMLPデコーダブロックを、自身のK‑Splanifolds論文に基づく離散的な、より低次元のスプライン多様体（spline manifold）幾何学アプローチで置き換えた。
著者は、5Bトークンの学習中にモデルをモニタリングし、その過程で全128層のうち96層目がどのように視覚的に変化していくかを示す。
得られた約18Mパラメータのモデルが驚くほど良好に機能し、学習損失が引き続き低下していると述べている。
著者は、損失の停滞の兆候が見られるまで学習を続け、その変化を修正したデコーダ設計の非公式な検証として用いる予定だ。

5Bトークンで学習している間に、私のLLMのデコーダブロックがどのように変化したか

実験中のモデルの継続的な学習をモニタリングしています。従来型トランスフォーマーのMLPデコーダを、私の K-Splanifolds論文で説明した離散的な低次元スプライン多様体幾何に置き換えました。画像は、学習した5Bトークンの間で、全128層のうち層96がどのように発達したかを示しています。18Mモデルは驚くほどうまく機能しており、損失も減少しているので、停滞している兆候が見えるまで学習を続けます。みなさんがその発達の様子を面白いと感じてくれればと思って投稿しました。

によって提出 /u/1ncehost
[リンク] [コメント]

Black Hat Asia

AI Business

四輪赤字のホンダ、研究所に再統合専門家「人事含め仕切り直し」

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

【PR】自ら考え動くAIエージェント、開発現場に貢献

日経XTECH

5Bトークンで学習する間に、私のLLMのデコーダブロックがどう変わったか

要点

関連記事

Black Hat Asia

四輪赤字のホンダ、研究所に再統合専門家「人事含め仕切り直し」

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

【PR】自ら考え動くAIエージェント、開発現場に貢献

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

四輪赤字のホンダ、研究所に再統合 専門家「人事含め仕切り直し」

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

【PR】自ら考え動くAIエージェント、開発現場に貢献

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

四輪赤字のホンダ、研究所に再統合専門家「人事含め仕切り直し」

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」