Prostate cancer (PC) is a leading cause of cancer related mortality in men, particularly when it is detected at advanced stages for which clinically effective therapies remain unavailable. Innovative treatments are therefore urgently required. Drug repurposing (DR) offers a rapid, low risk route because it seeks new oncological uses for drugs that are already approved. This approach is even more powerful when it is driven by in silico analyses, which mine the wealth of chemical and biological data deposited in public repositories. During my PhD I integrated complementary chemoinformatics and machine learning (ML) methodologies to discover and prioritize repurposing candidates for PC. In a first project, I compared DrugBank (DB) ligands with ChEMBL molecules that show high antiproliferative activity in PC cell lines. Two dimensional fingerprints (MACCS, ECFP4) and 3D shape comparisons identified 138 DB structures closely resembling known anti PC agents. 48 already possessed experimental evidence of anti PC action representing valuable candidates for potential fast repurposing, whereas the remaining 90 compounds were completely untested in this indication and thus represented novel opportunities. Then, in a second project, to evaluate those 90 DB ligands I built ML classifiers for three PC cell lines spanning different aggressiveness (PC3, DU 145 and LNCaP), employing RDKit physicochemical descriptors for the ChEMBL compounds in the training and validation datasets. Extra Trees classifiers for each line were optimized through grid search and recursive feature elimination using repeated, stratified ten fold cross validation. The final models achieved Matthews correlation coefficients close to 0.60 and Accuracy, Precision, Recall and F1 values above 0.80 on external tests. The developed models were combined with results of previously performed similarity estimations, to improve the prediction performance, and leading to the prioritization of a set of candidates for experimental validation. The performed analyses allowed the selection of five drug repurposing candidates from the 90 DB ligands, which were experimentally tested. These drugs exhibited antiproliferative effects on tumor PC3 spheroid models, and GI50 values below 10 µM against at least one of the selected PC cell lines. In a third project, I systematically evaluated how four molecular representations—RDKit descriptors, MACCS keys, ECFP4 fingerprints and custom molecular fragment features—influenced ML performance, interpretability and robustness. For each feature set were developed classifiers based on algorithms Extra Trees, Random Forest, Gradient Boosting Machines (GBM) and XGBoost (XGB); SHapley Additive eXPlanations (SHAP) helped understand models' decision processes. RDKit and ECFP4 features consistently produced the best metrics (MCC 0.55–0.64), while MACCS keys and fragment vectors showed lower accuracy, but returned more transparent models that highlighted specific substructures. GBM and XGB recovered the largest share of activity cliff pairs, whereas fragment models, although less predictive, uniquely identified the substitutions responsible for potency shifts. These insights indicate that hybrid fingerprints blending circular environments with explicit fragments, coupled to targeted data augmentation on persistently mis classified scaffolds, could further sharpen both predictive power and interpretability. Altogether, the combination of similarity searching, optimized ML and model explainability forms a fast, rational route to discover and prioritize repurposable drugs for prostate cancer.

Il carcinoma prostatico (PC) è una delle principali cause di mortalità negli uomini, soprattutto se individuato in stadi avanzati per i quali non esistono terapie efficaci. Perciò, vi è urgente bisogno di agenti terapeutici innovativi. Il riposizionamento di farmaci (DR) offre una rapida alternativa, in quanto ricerca nuovi impieghi terapeutici per molecole già approvate. DR risulta più vantaggioso quando è combinato con metodi in silico che sfruttano i dati chimici e biologici presenti in database pubblici. Durante il mio dottorato ho integrato metodologie chemoinformatiche e di machine learning (ML) per identificare e prioritizzare candidati al DR per PC. In un primo progetto ho confrontato i ligandi di DrugBank (DB) con le molecole di ChEMBL che mostrano elevata attività antiproliferativa su linee cellulari PC. Utilizzando analisi di similarità bi e tridimensionali ho individuato 138 ligandi DB strettamente simili ad agenti anti-PC noti. 48 di questi, possedevano già evidenze sperimentali sul PC, costituendo candidati preziosi per un rapido riposizionamento, mentre i restanti 90 non erano mai stati testati su PC, offrendo nuove opportunità per DR. In un secondo progetto, per valutare i 90 ligandi DB ho costruito classificatori ML per tre linee cellulari PC con diversa aggressività (PC3, DU-145 e LNCaP), utilizzando descrittori RDKit fisico-chimici per i set di training e validazione dei composti ChEMBL testati su queste linee cellulari. I classificatori Extra Trees sviluppati per ciascuna linea sono stati ottimizzati tramite grid search, eliminazione ricorsiva delle feature e cross validation. I modelli finali hanno raggiunto coefficienti di correlazione di Matthews di circa 0,60 e valori di Accuracy, Precision, Recall e F1 superiori a 0,80 su test sets esterni. I modelli sono stati combinati con le similarità ottenute in precedenza, migliorando ulteriormente la capacità predittiva e identificando un set di candidati da sottoporre a validazione sperimentale. Queste analisi hanno consentito di selezionare cinque farmaci dei 90 DB, successivamente testati in vitro: tutti hanno mostrato effetti antiproliferativi su sferoidi tumorali PC3 e valori di GI50 inferiori a 10 µM su almeno una delle linee considerate. In un terzo progetto ho valutato l’influenza di quattro rappresentazioni molecolari—descrittori RDKit, MACCS keys, fingerprint ECFP4 e feature basate su frammenti molecolari personalizzati—su prestazioni, interpretabilità e robustezza dei modelli ML. Per ogni feature sono stati sviluppati classificatori con gli algoritmi ET, Random Forest, Gradient Boosting Machines (GBM) e XGBoost (XGB); la valutazione dei contributi di SHapley Additive eXplanations (SHAP) ha permesso di chiarire i processi decisionali dei modelli. RDKit ed ECFP4 hanno fornito sistematicamente le migliori metriche (MCC 0,55–0,64), mentre MACCS keys e frammenti molecolari personalizzati hanno mostrato precisione leggermente inferiore, ma modelli più trasparenti, evidenziando sottostrutture specifiche. Gli algoritmi GBM e XGB hanno identificato correttamente più di coppie activity cliff, mentre i modelli sviluppati su frammenti molecolari personalizzati, sebbene meno predittivi, hanno individuato come fondamentali le sostituzioni responsabili dei cambiamenti di attività. Questi risultati indicano che fingerprint ibride, che combinino ambienti circolari ed espliciti frammenti, associate a un data augmentation mirato sugli scaffold persistentemente mal classificati, potrebbero affinare ulteriormente sia la potenza predittiva sia l’interpretabilità. In definitiva, l’integrazione di ricerche per similarità, ottimizzazione di modelli ML ed analisi di interpretabilità sono un percorso rapido e razionale per scoprire e prioritizzare farmaci riposizionabili contro PC.

Sviluppo e applicazione di protocolli integranti approcci di machine learning e chemoinformatica per identificare candidati al riposizionamento di farmaci contro il carcinoma della prostata

BERNAL, LEONARDO
2025

Abstract

Prostate cancer (PC) is a leading cause of cancer related mortality in men, particularly when it is detected at advanced stages for which clinically effective therapies remain unavailable. Innovative treatments are therefore urgently required. Drug repurposing (DR) offers a rapid, low risk route because it seeks new oncological uses for drugs that are already approved. This approach is even more powerful when it is driven by in silico analyses, which mine the wealth of chemical and biological data deposited in public repositories. During my PhD I integrated complementary chemoinformatics and machine learning (ML) methodologies to discover and prioritize repurposing candidates for PC. In a first project, I compared DrugBank (DB) ligands with ChEMBL molecules that show high antiproliferative activity in PC cell lines. Two dimensional fingerprints (MACCS, ECFP4) and 3D shape comparisons identified 138 DB structures closely resembling known anti PC agents. 48 already possessed experimental evidence of anti PC action representing valuable candidates for potential fast repurposing, whereas the remaining 90 compounds were completely untested in this indication and thus represented novel opportunities. Then, in a second project, to evaluate those 90 DB ligands I built ML classifiers for three PC cell lines spanning different aggressiveness (PC3, DU 145 and LNCaP), employing RDKit physicochemical descriptors for the ChEMBL compounds in the training and validation datasets. Extra Trees classifiers for each line were optimized through grid search and recursive feature elimination using repeated, stratified ten fold cross validation. The final models achieved Matthews correlation coefficients close to 0.60 and Accuracy, Precision, Recall and F1 values above 0.80 on external tests. The developed models were combined with results of previously performed similarity estimations, to improve the prediction performance, and leading to the prioritization of a set of candidates for experimental validation. The performed analyses allowed the selection of five drug repurposing candidates from the 90 DB ligands, which were experimentally tested. These drugs exhibited antiproliferative effects on tumor PC3 spheroid models, and GI50 values below 10 µM against at least one of the selected PC cell lines. In a third project, I systematically evaluated how four molecular representations—RDKit descriptors, MACCS keys, ECFP4 fingerprints and custom molecular fragment features—influenced ML performance, interpretability and robustness. For each feature set were developed classifiers based on algorithms Extra Trees, Random Forest, Gradient Boosting Machines (GBM) and XGBoost (XGB); SHapley Additive eXPlanations (SHAP) helped understand models' decision processes. RDKit and ECFP4 features consistently produced the best metrics (MCC 0.55–0.64), while MACCS keys and fragment vectors showed lower accuracy, but returned more transparent models that highlighted specific substructures. GBM and XGB recovered the largest share of activity cliff pairs, whereas fragment models, although less predictive, uniquely identified the substitutions responsible for potency shifts. These insights indicate that hybrid fingerprints blending circular environments with explicit fragments, coupled to targeted data augmentation on persistently mis classified scaffolds, could further sharpen both predictive power and interpretability. Altogether, the combination of similarity searching, optimized ML and model explainability forms a fast, rational route to discover and prioritize repurposable drugs for prostate cancer.
9-lug-2025
Inglese
Il carcinoma prostatico (PC) è una delle principali cause di mortalità negli uomini, soprattutto se individuato in stadi avanzati per i quali non esistono terapie efficaci. Perciò, vi è urgente bisogno di agenti terapeutici innovativi. Il riposizionamento di farmaci (DR) offre una rapida alternativa, in quanto ricerca nuovi impieghi terapeutici per molecole già approvate. DR risulta più vantaggioso quando è combinato con metodi in silico che sfruttano i dati chimici e biologici presenti in database pubblici. Durante il mio dottorato ho integrato metodologie chemoinformatiche e di machine learning (ML) per identificare e prioritizzare candidati al DR per PC. In un primo progetto ho confrontato i ligandi di DrugBank (DB) con le molecole di ChEMBL che mostrano elevata attività antiproliferativa su linee cellulari PC. Utilizzando analisi di similarità bi e tridimensionali ho individuato 138 ligandi DB strettamente simili ad agenti anti-PC noti. 48 di questi, possedevano già evidenze sperimentali sul PC, costituendo candidati preziosi per un rapido riposizionamento, mentre i restanti 90 non erano mai stati testati su PC, offrendo nuove opportunità per DR. In un secondo progetto, per valutare i 90 ligandi DB ho costruito classificatori ML per tre linee cellulari PC con diversa aggressività (PC3, DU-145 e LNCaP), utilizzando descrittori RDKit fisico-chimici per i set di training e validazione dei composti ChEMBL testati su queste linee cellulari. I classificatori Extra Trees sviluppati per ciascuna linea sono stati ottimizzati tramite grid search, eliminazione ricorsiva delle feature e cross validation. I modelli finali hanno raggiunto coefficienti di correlazione di Matthews di circa 0,60 e valori di Accuracy, Precision, Recall e F1 superiori a 0,80 su test sets esterni. I modelli sono stati combinati con le similarità ottenute in precedenza, migliorando ulteriormente la capacità predittiva e identificando un set di candidati da sottoporre a validazione sperimentale. Queste analisi hanno consentito di selezionare cinque farmaci dei 90 DB, successivamente testati in vitro: tutti hanno mostrato effetti antiproliferativi su sferoidi tumorali PC3 e valori di GI50 inferiori a 10 µM su almeno una delle linee considerate. In un terzo progetto ho valutato l’influenza di quattro rappresentazioni molecolari—descrittori RDKit, MACCS keys, fingerprint ECFP4 e feature basate su frammenti molecolari personalizzati—su prestazioni, interpretabilità e robustezza dei modelli ML. Per ogni feature sono stati sviluppati classificatori con gli algoritmi ET, Random Forest, Gradient Boosting Machines (GBM) e XGBoost (XGB); la valutazione dei contributi di SHapley Additive eXplanations (SHAP) ha permesso di chiarire i processi decisionali dei modelli. RDKit ed ECFP4 hanno fornito sistematicamente le migliori metriche (MCC 0,55–0,64), mentre MACCS keys e frammenti molecolari personalizzati hanno mostrato precisione leggermente inferiore, ma modelli più trasparenti, evidenziando sottostrutture specifiche. Gli algoritmi GBM e XGB hanno identificato correttamente più di coppie activity cliff, mentre i modelli sviluppati su frammenti molecolari personalizzati, sebbene meno predittivi, hanno individuato come fondamentali le sostituzioni responsabili dei cambiamenti di attività. Questi risultati indicano che fingerprint ibride, che combinino ambienti circolari ed espliciti frammenti, associate a un data augmentation mirato sugli scaffold persistentemente mal classificati, potrebbero affinare ulteriormente sia la potenza predittiva sia l’interpretabilità. In definitiva, l’integrazione di ricerche per similarità, ottimizzazione di modelli ML ed analisi di interpretabilità sono un percorso rapido e razionale per scoprire e prioritizzare farmaci riposizionabili contro PC.
Chemoinformatica; Machine learning; Drug repurposing; Cancro alla prostata; Virtual screening
RASTELLI, Giulio
PINZI, LUCA
VINCETI, Marco
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Bernal.pdf

embargo fino al 08/07/2028

Dimensione 16.47 MB
Formato Adobe PDF
16.47 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/215230
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-215230