ニューラルネットワークの学習不安定性を検出するために、重み発散の軌跡カーブ(curvature)アプローチに取り組んできました。重みの更新を幾何学的な対象として扱い、軌跡が「間違った方向に」曲がり始めるタイミングを測定します——損失が発散するずっと前に問題を見つけられます。
DistilBERT、GPT-2、ResNet-50を含む7つのアーキテクチャで検証済み。30シードのベンチマークで検出率100%、誤検知率0%です。
本日、検出コアをオープンソース化しました。コメント内にリンクがあります。
[リンク] [コメント]




