Finite-sum problems may be regarded as sample average approximations in stochastic optimization problems. The number of components in the finite sum term is typically quite large, making the computation of its gradient impractical. Consequently, the class of stochastic gradient methods is a widely accepted approach for addressing finite sum problems. It is well established that an appropriate strategy to select the hyperparameters of these methods (i.e., the set of predefined parameters), particularly the learning rate and mini-batch size, is crucial to ensure convergence properties and achieve satisfactory practical performance avoiding expensive trial and error procedures to determine appropriate values. In this thesis, we develop several novel methods that leverage different techniques. Specifically, we introduce new algorithms based on adaptive stepsize selection rules, borrowed from the deterministic framework. By employing a stochastic version of the Barzilai-Borwein rules to dynamically select the stepsize by exploiting Ritz-type values, we propose the so-called AA-R-BB method. Furthermore, by combining a recent approach to select the learning rate as a diagonal matrix with an adaptive rule to set the mini-batch size, we develop ASM-DIAG method. A different approach is develop in LISA method, based on a non-monotone line-search technique, to adaptively select the learning rate, and on controlling the variance of the stochastic gradient by means of the increase of the mini-batch size. We also explore a practical implementation of LISA, named Deep-LISA, providing a predetermined procedure for selecting the mini-batch size aimed to reduce the computational cost and to manage hierarchical memory resources, also in presence of hardware accelerators. Moreover, in the class of spectral stochastic methods, we investigate an additional sampling technique, which plays a crucial role in accepting the trial iterate and regulating the increase in the mini-batch size. Thanks to this we propose a spectral iterative method, named LSNM-BB, for the minimization of finite or infinite sums of functions. Another significant aspect we address is the use of the proximal methods in scenarios where the regularization terms are not differentiable. For all the proposed methods, we provide the results of numerical experiments for binary or multiclass classification, comparing them against the state-of-the art techniques in the literature. The results highlight that the proposed methods are competitive and robust with respect to hyperparameters setting.

I problemi a somma finita si possono considerare come approssimazioni della media campionaria di problemi in ottimizzazione stocastica. Il numero di componenti nel termine a somma finita è tipicamente piuttosto elevato, rendendo impraticabile il calcolo del suo gradiente. Di conseguenza, la classe di metodi del gradiente stocastico è un approccio ampiamente adottato per affrontare i problemi a somma finita. È ben noto che una strategia adeguata per la selezione degli iperparametri di questi metodi (cioè l’insieme dei parametri predefiniti), in particolare il learning rate e la dimensione del mini-batch, è cruciale per garantire proprietà di convergenza e ottenere prestazioni pratiche soddisfacenti, evitando costose procedure di trial and error per determinare i valori appropriati. In questa tesi, sviluppiamo diversi nuovi metodi che sfruttano tecniche distinte. In particolare, introduciamo nuovi algoritmi basati su regole di selezione adattiva del passo, ottenute dal contesto deterministico. Utilizzando una versione stocastica delle formule di Barzilai-Borwein per selezionare dinamicamente la lunghezza del passo basata sull’uso di valori di tipo Ritz, proponiamo l’algoritmo AA-R-BB. Inoltre, combinando un approccio recente che utilizza una matrice diagonale come learning rate con una regola adattiva per fissare la dimensione del mini-batch, sviluppiamo il metodo ASM-DIAG. Un approccio diverso è proposto nel metodo LISA, basato su una tecnica di ricerca in linea non monotona, per selezionare adattivamente il learning rate, e sul controllo della varianza del gradiente stocastico mediante l’aumento della dimensione del mini-batch. Viene analizzata anche un’implementazione pratica di LISA, denominata Deep-LISA, fornendo una procedura predefinita per la selezione della dimensione del mini-batch volta a ridurre i costi computazionali e a gestire le risorse di memoria gerarchiche, anche in presenza di acceleratori hardware. Inoltre, nel contesto dei metodi spettrali del gradiente, viene considerata la tecnica di campionamento aggiuntivo, che svolge un ruolo cruciale nell’accettazione dell’iterato proposto e nella regolazione dell’aumento della dimensione del mini-batch, e viene proposto un metodo iterativo spettrale, denominato LSNM-BB, per la minimizzazione di somme finite o infinite di funzioni. Un altro aspetto significativo che affrontiamo è l’applicazione dell’operatore prossimale in scenari in cui i termini di regolarizzazione non sono differenziabili. Per tutti i metodi proposti, sono riportati i risultati di esperimenti numerici per la classificazione binaria o multiclasse, confrontando le loro prestazioni con quelle dei metodi presenti in letteratura. I risultati mettono in evidenza che i metodi proposti appaiono competitivi e robusti rispetto alla selezione degli iperparametri.

On the hyperparameters setting for first order stochastic optimization methods in machine learning

Ilaria, Trombini
2025

Abstract

Finite-sum problems may be regarded as sample average approximations in stochastic optimization problems. The number of components in the finite sum term is typically quite large, making the computation of its gradient impractical. Consequently, the class of stochastic gradient methods is a widely accepted approach for addressing finite sum problems. It is well established that an appropriate strategy to select the hyperparameters of these methods (i.e., the set of predefined parameters), particularly the learning rate and mini-batch size, is crucial to ensure convergence properties and achieve satisfactory practical performance avoiding expensive trial and error procedures to determine appropriate values. In this thesis, we develop several novel methods that leverage different techniques. Specifically, we introduce new algorithms based on adaptive stepsize selection rules, borrowed from the deterministic framework. By employing a stochastic version of the Barzilai-Borwein rules to dynamically select the stepsize by exploiting Ritz-type values, we propose the so-called AA-R-BB method. Furthermore, by combining a recent approach to select the learning rate as a diagonal matrix with an adaptive rule to set the mini-batch size, we develop ASM-DIAG method. A different approach is develop in LISA method, based on a non-monotone line-search technique, to adaptively select the learning rate, and on controlling the variance of the stochastic gradient by means of the increase of the mini-batch size. We also explore a practical implementation of LISA, named Deep-LISA, providing a predetermined procedure for selecting the mini-batch size aimed to reduce the computational cost and to manage hierarchical memory resources, also in presence of hardware accelerators. Moreover, in the class of spectral stochastic methods, we investigate an additional sampling technique, which plays a crucial role in accepting the trial iterate and regulating the increase in the mini-batch size. Thanks to this we propose a spectral iterative method, named LSNM-BB, for the minimization of finite or infinite sums of functions. Another significant aspect we address is the use of the proximal methods in scenarios where the regularization terms are not differentiable. For all the proposed methods, we provide the results of numerical experiments for binary or multiclass classification, comparing them against the state-of-the art techniques in the literature. The results highlight that the proposed methods are competitive and robust with respect to hyperparameters setting.
On the hyperparameters setting for first order stochastic optimization methods in machine learning
9-mag-2025
ENG
I problemi a somma finita si possono considerare come approssimazioni della media campionaria di problemi in ottimizzazione stocastica. Il numero di componenti nel termine a somma finita è tipicamente piuttosto elevato, rendendo impraticabile il calcolo del suo gradiente. Di conseguenza, la classe di metodi del gradiente stocastico è un approccio ampiamente adottato per affrontare i problemi a somma finita. È ben noto che una strategia adeguata per la selezione degli iperparametri di questi metodi (cioè l’insieme dei parametri predefiniti), in particolare il learning rate e la dimensione del mini-batch, è cruciale per garantire proprietà di convergenza e ottenere prestazioni pratiche soddisfacenti, evitando costose procedure di trial and error per determinare i valori appropriati. In questa tesi, sviluppiamo diversi nuovi metodi che sfruttano tecniche distinte. In particolare, introduciamo nuovi algoritmi basati su regole di selezione adattiva del passo, ottenute dal contesto deterministico. Utilizzando una versione stocastica delle formule di Barzilai-Borwein per selezionare dinamicamente la lunghezza del passo basata sull’uso di valori di tipo Ritz, proponiamo l’algoritmo AA-R-BB. Inoltre, combinando un approccio recente che utilizza una matrice diagonale come learning rate con una regola adattiva per fissare la dimensione del mini-batch, sviluppiamo il metodo ASM-DIAG. Un approccio diverso è proposto nel metodo LISA, basato su una tecnica di ricerca in linea non monotona, per selezionare adattivamente il learning rate, e sul controllo della varianza del gradiente stocastico mediante l’aumento della dimensione del mini-batch. Viene analizzata anche un’implementazione pratica di LISA, denominata Deep-LISA, fornendo una procedura predefinita per la selezione della dimensione del mini-batch volta a ridurre i costi computazionali e a gestire le risorse di memoria gerarchiche, anche in presenza di acceleratori hardware. Inoltre, nel contesto dei metodi spettrali del gradiente, viene considerata la tecnica di campionamento aggiuntivo, che svolge un ruolo cruciale nell’accettazione dell’iterato proposto e nella regolazione dell’aumento della dimensione del mini-batch, e viene proposto un metodo iterativo spettrale, denominato LSNM-BB, per la minimizzazione di somme finite o infinite di funzioni. Un altro aspetto significativo che affrontiamo è l’applicazione dell’operatore prossimale in scenari in cui i termini di regolarizzazione non sono differenziabili. Per tutti i metodi proposti, sono riportati i risultati di esperimenti numerici per la classificazione binaria o multiclasse, confrontando le loro prestazioni con quelle dei metodi presenti in letteratura. I risultati mettono in evidenza che i metodi proposti appaiono competitivi e robusti rispetto alla selezione degli iperparametri.
Stochastic gradient method
Hyperparameters setting
Line-search technique
Additional sub-sampling
Adaptive Learning rate selection rule
Machine learning
Deep learning
MATH-05/A
Valeria, Ruggiero
Università degli Studi di Parma. Dipartimento di Scienze Matematiche, fisiche e informatiche
File in questo prodotto:
File Dimensione Formato  
Tesi_dottorato_Trombini_Ilaria.pdf

embargo fino al 01/04/2027

Dimensione 10.9 MB
Formato Adobe PDF
10.9 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/213393
Il codice NBN di questa tesi è URN:NBN:IT:UNIPR-213393