AdaCubic: An Adaptive Cubic Regularization Optimizer for Deep Learning

arXiv cs.LG / 4/13/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • AdaCubicは、ニュートン型のcubic regularized methodにおける「三次項の重み」を状況に応じて動的に調整する新しい正則化ベースのオプティマイザとして提案されています。
  • 重いHessian行列の計算を避けるためにHutchinson法で近似し、計算コストを抑えながら補助最適化問題を解く設計になっています。
  • AdaCubicは、三次正則化ニュートン法の局所収束保証を継承するとされています。
  • CV/NLP/信号処理の複数タスク実験で、既存の代表的オプティマイザに対して優位または競争力が示され、かつ固定ハイパーパラメータで評価できるため微調整が難しい場面で有用とされています。

Abstract

A novel regularization technique, AdaCubic, is proposed that adapts the weight of the cubic term. The heart of AdaCubic is an auxiliary optimization problem with cubic constraints that dynamically adjusts the weight of the cubic term in Newton's cubic regularized method. We use Hutchinson's method to approximate the Hessian matrix, thereby reducing computational cost. We demonstrate that AdaCubic inherits the cubically regularized Newton method's local convergence guarantees. Our experiments in Computer Vision, Natural Language Processing, and Signal Processing tasks demonstrate that AdaCubic outperforms or competes with several widely used optimizers. Unlike other adaptive algorithms that require hyperparameter fine-tuning, AdaCubic is evaluated with a fixed set of hyperparameters, rendering it a highly attractive optimizer in settings where fine-tuning is infeasible. This makes AdaCubic an attractive option for researchers and practitioners alike. To our knowledge, AdaCubic is the first optimizer to leverage cubic regularization in scalable deep learning applications.