概要: 幅の拡張は、小さな因果的言語モデルのチェックポイントを再利用するための実用的な経路を提供しますが、拡張されたウォームスタートの選択は、ゼロステップ保存だけでは解決されません。私たちは、コピーされた重み、オプティマイザのモーメント、スケジューラ状態を含む、学習全状態上での候補選択問題として、密な幅成長を研究します。小規模なTinyStoriesプロキシにおいて、一致した継続予算の下で、完全コピー、摂動的、非対称リセット、そして構造化された非クローンのウォームスタートを比較します。ゼロステップ保存、短いラグのプローブ指標、ならびに決定論的および確率的なレジームにおける下流の継続有用性を評価します。得られる状況は混在しており、縮小されたプールのseed-1チェックによって部分的に再現されます。完全コピーの対称的ウォームスタートは、完了したすべての16ステップのプローブと、seed-0におけるステップ1000および2000に加えて、縮小seed-1のステップ2000で行った完了した確率的128ステップの継続において、最上位の順位を付けます。これとは対照的に、構造化された非クローンの挑戦者は、決定論的な128ステップ継続で勝利します。したがって、継承されたクローン部分空間からの初期の脱出は、普遍的なセレクタではありません。これは長い決定論的継続では役に立ちますが、短いラグや確率的継続では誤った方向に導きます。結論は狭いものの有用です。この規模における密な幅成長では、保存は普遍的なランキング基準ではなく、最良の置換シグナルはレジームとラグ予算の両方に依存します。
幅の成長に対して、保存するだけでは不十分:高密度LMのウォームスタートに対するレジームに敏感な選択
arXiv cs.AI / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、高密度言語モデルの幅の成長において有効な拡幅ウォームスタート状態をどのように選ぶかを研究し、ゼロステップ挙動を単に保存するだけでは、最良の候補を選定するのに不十分であることを示す。


