Unified convergence theory – Optimization Online

A unified convergence theory for adaptive first-order methods in the nonconvex case, including AdaNorm, full and diagonal AdaGrad, Shampoo and Muon

Published: 2026/04/15, Updated: 2026/05/01

Data Science Algorithms, Stochastic Programming, Unconstrained Optimization adaptive first-order methods, machine learning, stochastic complexity, Unified convergence theory

A unified framework for first-order optimization algorithms for nonconvex unconstrained optimization is proposed that uses adaptively preconditioned gradients and includes popular methods such as full and diagonal AdaGrad, AdaNorm, as well as adpative variants of Shampoo and Muon. This framework also allows combining heterogeneous geometries across different groups of variables while preserving a unified convergence … Read more