Dragomir, Radu-Alexandru (2021) Méthodes de gradient de Bregman pour problèmes à régularité relative. École doctorale Mathématiques, Informatique et Télécommunications (Toulouse).

[thumbnail of DragomirRaduAlexandru2021.pdf]
Preview
Text
Download (2MB) | Preview

Abstract

En apprentissage statistique et traitement du signal, de nombreuses tâches se formulent sous la forme d’un problème d’optimisation de grande taille. Dans ce contexte, les méthodes du premier ordre, qui utilisent uniquement l’information apportée par le gradient de la fonction objectif, sont privilégiées en raison de leur faible coût par itération et de leur simplicité. Nous étudions dans cette thèse les méthodes du premier ordre à distance de Bregman, qui constituent une généralisation de la célèbre méthode de descente de gradient. Cette généralisation consiste à remplacer la distance euclidienne par une distance plus générale, dite de Bregman, générée par une fonction convexe noyau suffisamment simple. La fonction noyau est choisie de manière à être adaptée à la géométrie de la fonction objectif au travers de la condition de régularité relative, introduite en 2017 par Bauschke, Bolte et Teboulle. Depuis son apparition, cette condition a fait naître de nouvelles perspectives en optimisation du premier ordre. Tout d’abord, nous appliquons les méthodes de Bregman aux problèmes d’optimisation sur des espaces de matrices de rang faible. En exploitant la structure matricielle et en utilisant la propriété de régularité relative, nous proposons des noyaux de Bregman qui permettent d’améliorer la performance numérique par rapport aux méthodes euclidiennes. Ensuite, nous nous penchons sur la complexité théorique de ces algorithmes. Un des problèmes les plus importants est de déterminer s’il existe une version accélérée de l’algorithme de gradient de Bregman qui possède un meilleur taux de convergence. Dans le cas général, nous démontrons que la réponse est négative : la complexité de la descente de gradient de Bregman standard ne peut pas être améliorée pour des noyaux génériques. La preuve repose sur un contre-exemple pathologique qui a été découvert au travers de méthodes d’analyses de pire cas par ordinateur. Nous évoquons aussi une tentative pour obtenir des résultats positifs d’accélération en spécialisant cette analyse dans le contexte plus restreint de la géométrie entropique. Enfin, nous étudions la version stochastique de l’algorithme de Bregman pour minimiser des fonctions sous la forme d’espérance, ainsi que des méthodes de réduction de variance lorsque la fonction objectif est une somme finie.

,

We study large-scale optimization problems with applications to signal processing and machine learning. Such problems are typically solved with first-order methods that perform iterative updates using the gradient of the objective function. We focus on the class of Bregman first order methods, for which the direction of the gradient step is determined by the Bregman divergence induced by a convex kernel function. The choice of the kernel is guided by the relative smoothness condition, which requires the kernel to be compatible with the objective through a descent inequality. This condition was introduced recently by Bauschke, Bolte and Teboulle in 2017 and has opened new perspectives in first-order optimization. In the first part, we apply Bregman methods to minimization problems on the space of low-rank semidefinite matrices. By leveraging the matrix structure and using the relatives moothness property, we show that well-chosen Bregman kernels allow to improve performance over standard Euclidean methods. Then, we study the theoretical complexity of these algorithms. An important question is to determine whether there exists an accelerated version of Bregman gradient descent which achieves a better convergence rate in the same setting. In the general case, we show that the answer is negative as the complexity of the standard Bregman gradient method cannot be improved for generic kernels. The proof relies on a pathological example which was discovered by analyzing the worst-case behavior of Bregman methods with a computer-aided technique called performance estimation. We also detail an attempt towards improving the convergence speed in a more restricted setting, by specializing the performance estimation framework to the entropic geometry. Finally, we study a stochastic variant of Bregman gradient descent for expectation minimization problems, which are pervasive in machine learning, along with variance reduction methods for finite-sum objectives.

Item Type: Thesis (UNSPECIFIED)
Other titles: Bregman Gradient Methods for Relatively-Smooth Optimization
Language: English
Date: 14 September 2021
Keywords (French): Optimisation, Méthodes de Bregman, Régularité relative, Non euclidien
Subjects: G- MATHEMATIQUES
Divisions: TSE-R (Toulouse)
Ecole doctorale: École doctorale Mathématiques, Informatique et Télécommunications (Toulouse)
Site: UT1
Date Deposited: 17 Jan 2022 15:38
Last Modified: 22 Jul 2022 14:38
URI: https://publications.ut-capitole.fr/id/eprint/44182
View Item

Downloads

Downloads per month over past year