Cancer is a complex disease that originates from genetic mutations, which represent the primary triggering events of neoplastic transformation. Nevertheless, such lesions alone are not sufficient to account for the full complexity of tumour development, which also arises from epigenetic and regulatory alterations that remodel cellular networks and molecular circuits. In this framework, conventional single-gene approaches risk overlooking key elements that, although not frequently mutated or differentially expressed, play a critical role as network hubs. In this thesis, "CancerHubs" is presented, a systematic data mining and integration pipeline that combines mutational data, clinical outcome predictions (via PRECOG meta-Z scores), and protein-protein interaction networks to identify cancer-related protein hubs. The method computes a composite Network Score that integrates mutational profiles, prognostic associations, and interactome connectivity, thereby prioritising genes that may not be strongly mutated or differentially expressed, but are central to the cancer network structure. This approach moves beyond conventional mutation-centric strategies and provides a network-informed perspective on cancer gene discovery. Alongside the computational method, "CancerHubs Data Explorer", a Shiny web application that allows users to interactively explore mutation-enriched hubs across 11 tumour types was developed. The application provides ranked tables, global interactomes, and neighbourhood visualisations of user-defined genes, with filtering options for mutational and prognostic data. This ensures that the results of the pipeline are not only reproducible but also broadly accessible to researchers with varying computational expertise. As a proof of principle, predictions generated by CancerHubs were validated both in silico and experimentally. These analyses demonstrated that TGOLN2 displays tumour suppressor features in Multiple Myeloma, Breast, and Prostate Cancer, while EFTUD2 exhibits oncogene-like behaviour specifically in Multiple Myeloma. This validation highlights the ability of the framework to uncover genes of clinical and mechanistic relevance that may be missed by mutation- or expression-centric approaches. Altogether, CancerHubs provides a exible and extensible framework for interactome-based cancer gene prioritisation. By integrating heterogeneous data layers into a unied network-aware metric, and by complementing predictions with functional validation and accessibility through the CancerHubs Data Explorer, this work contributes to the advancement of systems oncology. The tools and ndings described here aim to support hypothesis generation, biomarker discovery, and the identification of novel therapeutic targets, ultimately bridging the gap between large-scale cancer genomics and translational applications.

Il cancro è una patologia complessa che trae origine da mutazioni genetiche, le quali rappresentano il principale evento scatenante della trasformazione neoplastica. Tuttavia, tali lesioni non sono di per sé sufficienti a spiegare la complessità della malattia, che emerge dall'interazione con alterazioni epigenetiche e regolative capaci di rimodellare circuiti molecolari. In questo contesto, approcci tradizionali centrati sul singolo gene rischiano di trascurare elementi chiave che, pur non risultando frequentemente mutati o differenzialmente espressi, svolgono un ruolo determinante e centrale nella malattia. In questa tesi viene descritto lo sviluppo di CancerHubs, una pipeline di integrazione dati che combina profili mutazionali, associazioni prognostiche (tramite meta-Z score di PRECOG) e reti di interazioni proteina-proteina (PPI). L'algoritmo assegna a ciascun gene un Network Score, che riflette sia la sua posizione topologica negli interattomi tumorali sia la sua connessione con mutazioni e outcome clinici. Questo approccio consente di evidenziare geni con un ruolo potenzialmente determinante nello sviluppo del tumore, ma che resterebbero invisibili a un'analisi centrata esclusivamente su frequenza mutazionale o espressione genica. Per garantire che i risultati fossero fruibili da una platea più ampia di ricercatori è stata sviluppata un'applicazione web in R/Shiny, chiamata CancerHubs Data Explorer, che permette di esplorare interattivamente gli hub identificati in 11 tipi di tumore. L'app include tabelle, visualizzazioni di interattomi globali e locali dei geni selezionati, con filtri su dati mutazionali e prognostici. In questo modo, la pipeline non solo produce nuove conoscenze, ma le rende immediatamente accessibili a biologi molecolari, oncologi e ricercatori traslazionali. Infine, alcune predizioni di CancerHubs sono state sottoposte a validazione sia in silico che sperimentale. In particolare, TGOLN2 è stato validato come gene con caratteristiche di oncosoppressore in mieloma multiplo, carcinoma mammario e carcinoma prostatico, mentre EFTUD2 è stato validato come oncoge nel mieloma multiplo. Questi risultati confermano la capacità del framework di individuare geni di interesse clinico e biologico che sfuggono agli approcci convenzionali. Nel complesso, CancerHubs offre un metodo accessibile e scalabile per la prioritizzazione di geni tumorali a livello di interattoma. Integrando diverse fonti di dati in una metrica unica e rendendo i risultati disponibili tramite un portale interattivo, il lavoro contribuisce all'avanzamento della systems oncology, supportando la generazione di ipotesi, la scoperta di biomarcatori e l'identificazione di potenziali bersagli terapeutici non convenzionali.

CANCERHUBS: A NETWORK-CENTRIC FRAMEWORK FOR CANCER GENE PRIORITISATION

FERRARI, IVAN
2026

Abstract

Cancer is a complex disease that originates from genetic mutations, which represent the primary triggering events of neoplastic transformation. Nevertheless, such lesions alone are not sufficient to account for the full complexity of tumour development, which also arises from epigenetic and regulatory alterations that remodel cellular networks and molecular circuits. In this framework, conventional single-gene approaches risk overlooking key elements that, although not frequently mutated or differentially expressed, play a critical role as network hubs. In this thesis, "CancerHubs" is presented, a systematic data mining and integration pipeline that combines mutational data, clinical outcome predictions (via PRECOG meta-Z scores), and protein-protein interaction networks to identify cancer-related protein hubs. The method computes a composite Network Score that integrates mutational profiles, prognostic associations, and interactome connectivity, thereby prioritising genes that may not be strongly mutated or differentially expressed, but are central to the cancer network structure. This approach moves beyond conventional mutation-centric strategies and provides a network-informed perspective on cancer gene discovery. Alongside the computational method, "CancerHubs Data Explorer", a Shiny web application that allows users to interactively explore mutation-enriched hubs across 11 tumour types was developed. The application provides ranked tables, global interactomes, and neighbourhood visualisations of user-defined genes, with filtering options for mutational and prognostic data. This ensures that the results of the pipeline are not only reproducible but also broadly accessible to researchers with varying computational expertise. As a proof of principle, predictions generated by CancerHubs were validated both in silico and experimentally. These analyses demonstrated that TGOLN2 displays tumour suppressor features in Multiple Myeloma, Breast, and Prostate Cancer, while EFTUD2 exhibits oncogene-like behaviour specifically in Multiple Myeloma. This validation highlights the ability of the framework to uncover genes of clinical and mechanistic relevance that may be missed by mutation- or expression-centric approaches. Altogether, CancerHubs provides a exible and extensible framework for interactome-based cancer gene prioritisation. By integrating heterogeneous data layers into a unied network-aware metric, and by complementing predictions with functional validation and accessibility through the CancerHubs Data Explorer, this work contributes to the advancement of systems oncology. The tools and ndings described here aim to support hypothesis generation, biomarker discovery, and the identification of novel therapeutic targets, ultimately bridging the gap between large-scale cancer genomics and translational applications.
23-feb-2026
Inglese
Il cancro è una patologia complessa che trae origine da mutazioni genetiche, le quali rappresentano il principale evento scatenante della trasformazione neoplastica. Tuttavia, tali lesioni non sono di per sé sufficienti a spiegare la complessità della malattia, che emerge dall'interazione con alterazioni epigenetiche e regolative capaci di rimodellare circuiti molecolari. In questo contesto, approcci tradizionali centrati sul singolo gene rischiano di trascurare elementi chiave che, pur non risultando frequentemente mutati o differenzialmente espressi, svolgono un ruolo determinante e centrale nella malattia. In questa tesi viene descritto lo sviluppo di CancerHubs, una pipeline di integrazione dati che combina profili mutazionali, associazioni prognostiche (tramite meta-Z score di PRECOG) e reti di interazioni proteina-proteina (PPI). L'algoritmo assegna a ciascun gene un Network Score, che riflette sia la sua posizione topologica negli interattomi tumorali sia la sua connessione con mutazioni e outcome clinici. Questo approccio consente di evidenziare geni con un ruolo potenzialmente determinante nello sviluppo del tumore, ma che resterebbero invisibili a un'analisi centrata esclusivamente su frequenza mutazionale o espressione genica. Per garantire che i risultati fossero fruibili da una platea più ampia di ricercatori è stata sviluppata un'applicazione web in R/Shiny, chiamata CancerHubs Data Explorer, che permette di esplorare interattivamente gli hub identificati in 11 tipi di tumore. L'app include tabelle, visualizzazioni di interattomi globali e locali dei geni selezionati, con filtri su dati mutazionali e prognostici. In questo modo, la pipeline non solo produce nuove conoscenze, ma le rende immediatamente accessibili a biologi molecolari, oncologi e ricercatori traslazionali. Infine, alcune predizioni di CancerHubs sono state sottoposte a validazione sia in silico che sperimentale. In particolare, TGOLN2 è stato validato come gene con caratteristiche di oncosoppressore in mieloma multiplo, carcinoma mammario e carcinoma prostatico, mentre EFTUD2 è stato validato come oncoge nel mieloma multiplo. Questi risultati confermano la capacità del framework di individuare geni di interesse clinico e biologico che sfuggono agli approcci convenzionali. Nel complesso, CancerHubs offre un metodo accessibile e scalabile per la prioritizzazione di geni tumorali a livello di interattoma. Integrando diverse fonti di dati in una metrica unica e rendendo i risultati disponibili tramite un portale interattivo, il lavoro contribuisce all'avanzamento della systems oncology, supportando la generazione di ipotesi, la scoperta di biomarcatori e l'identificazione di potenziali bersagli terapeutici non convenzionali.
BIFFO, STEFANO
MANFRINI, NICOLA
Università degli Studi di Milano
272
File in questo prodotto:
File Dimensione Formato  
phd_unimi_R13707_6.pdf

embargo fino al 11/02/2027

Licenza: Creative Commons
Dimensione 6.13 MB
Formato Adobe PDF
6.13 MB Adobe PDF
phd_unimi_R13707_5.pdf

embargo fino al 11/02/2027

Licenza: Creative Commons
Dimensione 9.04 MB
Formato Adobe PDF
9.04 MB Adobe PDF
phd_unimi_R13707_4.pdf

embargo fino al 11/02/2027

Licenza: Creative Commons
Dimensione 7.87 MB
Formato Adobe PDF
7.87 MB Adobe PDF
phd_unimi_R13707_3.pdf

embargo fino al 11/02/2027

Licenza: Creative Commons
Dimensione 9.39 MB
Formato Adobe PDF
9.39 MB Adobe PDF
phd_unimi_R13707_2.pdf

embargo fino al 11/02/2027

Licenza: Creative Commons
Dimensione 9.61 MB
Formato Adobe PDF
9.61 MB Adobe PDF
phd_unimi_R13707_1.pdf

embargo fino al 11/02/2027

Licenza: Creative Commons
Dimensione 9.56 MB
Formato Adobe PDF
9.56 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/358446
Il codice NBN di questa tesi è URN:NBN:IT:UNIMI-358446