MuonはLLMの学習で素早く採用されてきた一方で、他の文脈ではそれについてあまり語られていないように見えます。ConvNets上でMuonを検索しても、ほぼ結果が出てきません。Cifar-10における新しい学習速度記録を含む発表があったにもかかわらずです。私の経験では、学習が速いほど最終的なモデルの出来が良くなることが多いので、いったいどういうことなのでしょうか?実際にはスケールしないのでしょうか?見落としている論文がありますか?
[リンク] [コメント]
Reddit r/MachineLearning / 2026/3/31