タブラー・ディープラーニングにおけるMLPのためのオプティマイザのベンチマーク

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、タブラー・ディープラーニングにおいてMLPの学習用オプティマイザを体系的に比較し、デフォルトのAdamWに依存するだけではないことを目的にしています。
  • 複数のタブラー・データセットで、共通の実験プロトコルのもと標準的な教師あり学習設定を用いると、MuonオプティマイザがAdamWを一貫して上回ることが分かります。
  • 追加の学習効率に関するオーバーヘッドが許容できるなら、Muonを強力で実用的な選択肢として検討すべきだと著者らは提案しています。
  • さらに、モデル重みの指数移動平均(EMA)を用いるとバニラMLPに対してAdamWの性能が改善する一方で、モデルのバリアントによって効果の一貫性は低いことを示しています。