幅の成長に対して、保存するだけでは不十分：高密度LMのウォームスタートに対するレジームに敏感な選択

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高密度言語モデルの幅の成長において有効な拡幅ウォームスタート状態をどのように選ぶかを研究し、ゼロステップ挙動を単に保存するだけでは、最良の候補を選定するのに不十分であることを示す。

概要: 幅の拡張は、小さな因果的言語モデルのチェックポイントを再利用するための実用的な経路を提供しますが、拡張されたウォームスタートの選択は、ゼロステップ保存だけでは解決されません。私たちは、コピーされた重み、オプティマイザのモーメント、スケジューラ状態を含む、学習全状態上での候補選択問題として、密な幅成長を研究します。小規模なTinyStoriesプロキシにおいて、一致した継続予算の下で、完全コピー、摂動的、非対称リセット、そして構造化された非クローンのウォームスタートを比較します。ゼロステップ保存、短いラグのプローブ指標、ならびに決定論的および確率的なレジームにおける下流の継続有用性を評価します。得られる状況は混在しており、縮小されたプールのseed-1チェックによって部分的に再現されます。完全コピーの対称的ウォームスタートは、完了したすべての16ステップのプローブと、seed-0におけるステップ1000および2000に加えて、縮小seed-1のステップ2000で行った完了した確率的128ステップの継続において、最上位の順位を付けます。これとは対照的に、構造化された非クローンの挑戦者は、決定論的な128ステップ継続で勝利します。したがって、継承されたクローン部分空間からの初期の脱出は、普遍的なセレクタではありません。これは長い決定論的継続では役に立ちますが、短いラグや確率的継続では誤った方向に導きます。結論は狭いものの有用です。この規模における密な幅成長では、保存は普遍的なランキング基準ではなく、最良の置換シグナルはレジームとラグ予算の両方に依存します。

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

幅の成長に対して、保存するだけでは不十分：高密度LMのウォームスタートに対するレジームに敏感な選択

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透