LLMトレーニングにおける信頼性課題としてのサイレント・データ破損（SDC）の調査

arXiv cs.LG / 2026/4/2

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模LLMトレーニングにおける信頼性リスクとしてサイレント・データ破損（SDC）を取り上げ、ハードウェア障害が通常の検出をすり抜けて無害な数値ノイズとして現れたり、勾配を大きく歪めたりし得ることを示している。
GPUの行列積（matrix-multiply）命令レベルでの制御されたフォールト注入（fault-injection）研究を提示し、障害の位置、ビット位置、カーネル関数、実行段階が学習結果に与える影響を整理・対応づけている。
著者らは、NaNの伝播、一時的な損失／勾配スパイク、永続的なパラメータの発散といった異なる「破損シグネチャ」を観察しており、これらはプリトレーニングの停止や発散につながり得る。
これらのシグネチャに基づき、潜在的に有害なパラメータ更新をフラグ付けするための軽量な検出手法を提案している。
LLaMAのバリアント（60M〜1.3Bパラメータ）での実験では、検出後に直近の学習ステップを再計算することで、SDCの影響を大幅に緩和できることが示されている。