Nexus:同一の事前学習損失で、共通ミニマにより下流タスクの汎化を改善
arXiv cs.LG / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文はLLM事前学習の幾何学的側面を扱い、モデルがデータソース間で共通のミニマへ収束するのか、それとも総和した損失のミニマへ収束するだけなのかを検討し、これを下流タスクの汎化性能と結びつけて考察する。
- AdamWなどの一般的な最適化手法では、タスク固有のミニマがしばしば大きく離れてしまうことを見出し、それが分布外(out-of-distribution)性能を損なう可能性があることを示す。
- 著者らはNexusオプティマイザを提案し、学習中に勾配の類似性を高めることで、事前学習の最終的な損失は同じ値に到達しつつも、タスク固有のミニマを「より近い」ものにすることを促す。
- 130M〜3Bパラメータ規模の複数のモデルと、複数のデータ混合・ハイパーパラメータスケジュールにまたがる実験により、Nexusが大幅な下流タスクの改善をもたらすことを示す。具体的には、GSM8kでの改善や、3Bモデルにおける分布外損失の低減が報告されている。
- 本研究は、事前学習損失だけでは評価の不十分な代理指標に過ぎず、より良い汎化を実現する上で暗黙の最適化バイアスが重要な役割を果たすと主張する。




