Boustany, Ryan
(2025)
On deep network training : complexity, robustness of nonsmooth backpropagation, and inertial algorithms.
École doctorale Mathématiques, Informatique et Télécommunications (Toulouse).
Preview |
Text
Download (2MB) | Preview |
Abstract
L'apprentissage basé sur les réseaux neuronaux repose sur l'utilisation combinée de techniques d'optimisation non convexe de premier ordre, d'approximation par sous-échantillonnage, et de différentiation algorithmique, qui est l'application numérique automatisée du calcul différentiel. Ces méthodes sont fondamentales pour les bibliothèques informatiques modernes telles que TensorFlow, PyTorch et JAX. Cependant, ces bibliothèques utilisent la différentiation algorithmique au-delà de leur cadre primaire sur les opérations différentiables de base. Souvent, les modèles intègrent des fonctions d'activation non différentiables comme ReLU ou des dérivées généralisées pour des objets complexes (solutions à des problèmes de sous-optimisation). Par conséquent, comprendre le comportement de la différentiation algorithmique et son impact sur l'apprentissage est devenu un enjeu clé dans la communauté de l'apprentissage automatique. Pour aborder cela, un nouveau concept de différentiation non lisse, appelé gradients conservatifs, a été développé pour modéliser la différentiation algorithmique non lisse dans les contextes d'apprentissage modernes. Ce concept facilite également la formulation de garanties d'apprentissage et la stabilité des algorithmes dans les réseaux neuronaux profonds tels qu'ils sont pratiquement implémentés.Dans ce contexte, nous proposons deux extensions du calcul conservatif, trouvant une large gamme d'applications dans l'apprentissage automatique. Le premier résultat fournit un modèle simple pour estimer les coûts computationnels des modes backward et forward de la différentiation algorithmique pour une large classe de programmes non lisses. Un deuxième résultat se concentre sur la fiabilité de la différentiation automatique pour les réseaux neuronaux non lisses opérant avec des nombres en virgule flottante. Enfin, nous nous concentrons sur la construction d'un nouvel algorithme d'optimisation exploitant uniquement des informations de second ordre en utilisant la différentiation automatique non lisse non convexe de premier ordre bruitée. Partant d'un système dynamique (une équation différentielle ordinaire), nous construisons INNAprop, dérivé d'une combinaison d'INNA et de RMSprop.
,Learning based on neural networks relies on the combined use of first-order non-convex optimization techniques, subsampling approximation, and algorithmic differentiation, which is the automated numerical application of differential calculus. These methods are fundamental to modern computing libraries such as TensorFlow, PyTorch and JAX. However, these libraries use algorithmic differentiation beyond their primary focus on basic differentiable operations. Often, models incorporate non-differentiable activation functions like ReLU or generalized derivatives for complex objects (solutions to sub-optimization problems). Consequently, understanding the behavior of algorithmic differentiation and its impact on learning has emerged as a key issue in the machine learning community. To address this, a new concept of nonsmooth differentiation, called conservative gradients, has been developed to model nonsmooth algorithmic differentiation in modern learning contexts. This concept also facilitates the formulation of learning guarantees and the stability of algorithms in deep neural networks as they are practically implemented.In this context, we propose two extensions of the conservative calculus, finding a wide range of applications in machine learning. The first result provides a simple model to estimate the computational costs of the backward and forward modes of algorithmic differentiation for a wide class of nonsmooth programs. A second result focuses on the reliability of automatic differentiation for nonsmooth neural networks operating with floating-point numbers. Finally, we focus on building a new optimizer algorithm exploiting second-order information only using noisy first-order nonsmooth nonconvex automatic differentiation. Starting from a dynamical system (an ordinary differential equation), we build INNAprop, derived from a combination of INNA and RMSprop.
Item Type: | Thesis (UNSPECIFIED) |
---|---|
Other titles: | Entraînement des réseaux profonds : complexité, robustesse de la rétropropagation non lisse et algorithmes inertiels |
Language: | English |
Date: | 31 March 2025 |
Keywords (French): | Réseaux neuronaux (informatique), Apprentissage profond, Algorithmes -- Stabilité |
Subjects: | G- MATHEMATIQUES |
Divisions: | TSE-R (Toulouse) |
Ecole doctorale: | École doctorale Mathématiques, Informatique et Télécommunications (Toulouse) |
Site: | UT1 |
Date Deposited: | 20 Jun 2025 10:03 |
Last Modified: | 20 Jun 2025 10:03 |
URI: | https://publications.ut-capitole.fr/id/eprint/50943 |