反復（リカレンス）を1回増やす価値はどれくらい？ループ型言語モデルの等深度スケーリング則

arXiv cs.LG / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、ループ型（深さ再帰型）言語モデルにおいてリカレンス（反復）を1回追加することの「価値」を、等深度スケーリング則を用いて“同等のユニークパラメータ数”の観点から定量化します。
等深度の検証として116回の事前学習ランを行い（r ∈ {1, 2, 4, 8}、学習計算量は約50倍の範囲）、結合スケーリング則を当てはめて、新しいリカレンス同等性指数 ϕ = 0.46（R² = 0.997）を得ています。
ϕは、ブロックをr回ループすることが、検証損失の点で「ループなしでr個のユニークブロックを使う場合」または「容量増加なしで1ブロックを繰り返す場合」とどう対応するかを決めます。ϕ = 0.46では、同等の学習計算量の条件下で、追加のリカレンスごとに検証損失コストが予測可能に増えるとされています。
具体例として、r = 4では410Mのループ型モデルが580Mの非ループ型モデルと同程度の性能を示しますが、学習コストは非ループ型1Bに近い重さになります。
下流評価では、ギャップはパラメトリック知識課題で持続し、単純なオープンブック課題では縮まり、一方で推論課題は試した計算予算内では解消できませんでした。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA