Il tumore al seno è una patologia clinicamente eterogenea e marker biologici in grado di predirne in modo affidabile evoluzione e soprattutto sensibilità ai trattamenti farmacologici rimangono poco definiti. Negli ultimi anni la ricerca ha cercato così di identificare nuovi marker predittivi di risposta, per consentire trattamenti più efficace per ogni singola paziente. Riuscire ad implementare i nuovi fattori predittivi nella pratica clinica rappresenta un importante obiettivo nella ricerca sul tumore al seno. Si potranno così evitare a priori trattamenti inefficaci, che inciderebbero solo negativamente sulla qualità di vita delle pazienti. Per molti anni si è parlato di marker singoli di risposta, ma, alla luce della complessità dei pathway cellulari coinvolti nella risposta del tumore alla chemioterapia ed all'eterogeneità tra i singoli tumori, è improbabile che la risposta o la resistenza ad un trattamento sia determinata dall'azione di un numero limitato di geni. La tecnologia dei microarray ha reso così possibile un'analisi su larga scala dei profili di espressione genica dei tumori al seno ed è stata uno strumento efficace per identificarne sottogruppi molecolari e profili di espressione con valore prognostico. Più recentemente i microarray sono stati anche applicati alla ricerca di geni predittivi di risposta alla chemioterapia. Con l'introduzione della chemioterapia neoadiuvante, ossia somministrata prima dell'intervento chirurgico, è divenuto possibile valutare direttamente la sensibilità del tumore al trattamento chemioterapico attraverso la risposta clinica e patologica della paziente. L'obiettivo principale di questa tesi è stato infatti quello di identificare un set di geni predittivo della risposta ad un particolare trattamento chemioterapico neoadiuvante basato su taxani (paclitaxel) e antracicline (adriamicina o epirubicina). Sono stati analizzati mediante microarray di oligonucleotidi 41 biopsie di tumore al seno prima della somministrazione della chemioterapia neoadiuvante. Delle 41 biopsie raccolte, 37 sono state analizzate con la piattaforma di oligonucleotidi Operon v2.0 presso il CRIBI e 4 sono state analizzate presso il Netherlands Cancer Institute con la piattaforma Operon v3.0. Al termine del trattamento è stato rese noto per 37 pazienti (su 41) l'esito della chemioterapia: 3 pazienti hanno mostrato una risposta clinica completa (cCR), 18 una risposta parziale al trattamento (PR), 13 pazienti non hanno risposto al trattamento, in 11 casi non si è avuto nessun cambiamento nella grandezza della massa tumorale (NC) ed in 2 casi un aumento di quest'ultima (PD). La prima analisi condotta è stata quella volta a verificare la correlazione tra i dati di immunoistochimica (IHC) ottenuti per i 6 marker prognostici ER, PR, Erb-B2, Bcl-2, Ki-67 e p53 ed i livelli di espressione dei rispettivi geni misurati con i microarray. Una significativa correlazione è stata trovata per ER, PR e Bcl-2. Il livello di Bcl-2 ottenuto dall'analisi IHC si è rivelato inoltre significativamente associato con la risposta alla chemioterapia neoadiuvante. Successivamente sono stati identificati i sottotipi molecolari dei 37 tumori analizzati con la piattaforma Operon v2.0 utilizzando l'intrinsic gene set individuato da Perou e colleghi. La maggior parte dei pazienti apparteneva al sottotipo luminale (28 su 37), 7 a quello erb-B2+ e 2 a quello basale. Poiché è stato riportato in letteratura che i sottotipi molecolari di tumore al seno rispondono in modo differente alla chemioterapia neoadiuvante, ho valutato come fossero distribuiti quelli da me identificati rispetto alla risposta clinica al trattamento, se disponibile. Dall'analisi è emerso che i sottogruppi luminale e erb-B2+ erano arricchiti di pazienti PR. E' stata quindi eseguita una cluster analysis gerarchica dei 30 profili di espressione genica (ottenuti con Operon v2.0) delle pazienti di cui era disponibile la risposta alla chemioterapia, per valutare come si sarebbero separate sulla base dell'intero profilo di espressione con un approccio unsupervised (senza cioè dare a priori l'informazione sul tipo di risposta clinica). Le pazienti non si sono separati in sensibili (cCR + PR) e resistenti (NC + PD) al trattamento. Questo risultato ha confermato l'ipotesi che il set di geni predittivi fosse ristretto e che probabilmente venisse mascherato dal grande numero di geni differenzialmente espressi dal tumore. Inoltre il numero limitato di paziente è stato un fattore limitante all'analisi. Sono passata quindi ad un approccio di tipo supervised cercando quei geni in grado di distinguere tumori sensibili e tumori resistenti al trattamento, cioè i geni predittivi della farmacoresistenza. Ho considerato due dataset di pazienti, il dataset I che includeva pazienti PR vs pazienti resistenti (NC e PD) e il dataset II che considerava anche i pazienti cCR nel gruppo di tumori sensibili al trattamento. Il programma PAM (Prediction Analysis of Microarray) ha individuato set di geni predittivi con una bassa performance di classificazione dei pazienti in entrambi i dataset (il 36% dei pazienti veniva classificato in modo sbagliato). Si è reso quindi necessario un nuovo metodo di analisi, più efficace in termini di accuracy di classificazione. Una selezione dei geni significativi basata sulle Support Vector Machines (SVM) è stata considerata una scelta appropriata alla luce delle caratteristiche dello studio: basso numero di pazienti (o esempi) e alto numero di geni (o features). Le SVM infatti sono degli algoritmi di apprendimento supervisionati che lavorano bene in questi casi abbassando il rischio di overfitting, dovuto al numero troppo elevato di features rispetto agli esempi da classificare. In particolare è stato utilizzato l'algoritmo di feature selection R-SVM (Recursive Support Vector Machine) per selezionare quel set di geni con il più basso errore di classificazione sul dataset di pazienti (I e II). Per validare la performance di classificazione dei set di geni selezionati è stata usata una Leave One Out Cross Validation non essendo possibile, a causa del numero ridotto di pazienti, suddividere i dataset in un training and in un test set indipendenti. L'analisi R-SVM ha identificato un set di 54 geni in grado di classificare i 28 pazienti del dataset con un'accuratezza pari all'85% (4 pazienti sbagliati su 28) e un set di 14 geni in grado di classificare le 30 pazienti del dataset II con un'accuratezza del 76% (7 pazienti sbagliati su 30). L'abbassamento del grado di accuracy nel dataset II è stato attribuito al fatto di aver incluso nel gruppo dei pazienti sensibili al trattamento anche i pazienti cCR; in realtà essi avrebbero costituito una classe troppo diversa dai pazienti PR tale da non poter essere inclusa nello stesso gruppo di questi ultimi. Alla luce di quanto detto ho considerato solo il dataset I nelle analisi successive. L'analisi di Gene Ontology sui 54 geni identificati nel dataset I ha rivelato che alcuni di questi geni sono annotati a livello di processi biologici caratteristici della tumorigenesi in generale ("adesione cellulare", "vie di segnalazione dell'insulina", "proliferazione cellulare", "regolazione della proliferazione cellulare"). Alcune categorie funzionali sono invece più legate a processi e compartimenti cellulari target dei farmaci utilizzati in questo studio ("ciclo cellulare", "arresto del ciclo cellulare", "nucleo") ed alla risposta al trattamento ("risposta all'ipossia"). Da una ricerca in letteratura mirata a ciascuno dei 54 geni della lista è emerso che alcuni di essi (MYC, NUF2, SPC25; KFL5, CDKN1b, ITGA6, POSTN) sono implicati nel fenomeno di resistenza a paclitaxel ed antracicline. Altri (CXCL9, CEBPD, IRS2, TCF8, ADAMTS5, PPARGC1A) dimostrano di avere un ruolo in processi collegati a progressione tumorale ed a metastasi ma non hanno un coinvolgimento diretto con la farmacoresistenza oggetto dello studio. A questo punto del lavoro è stato naturale chiedersi come utilizzare il modello SVM allenato usando i 54 geni per predire la risposta alla chemioterapia (con paclitaxel ed antracicline) di un nuovo paziente, non ancora classificato come sensibile o resistente al trattamento. Dal momento che l'output di una SVM è una misura di distanza dall'iperpiano che separa i pazienti positivi (sensibili al trattamento) da quelli negativi (resistenti al trattamento) a cui non è associato un significato statistico, si è pensato di trasformare questo valore in una misura di probabilità di appartenenza alla classe positiva di risposta. Per fare questo è stato utilizzato un modello parametrico definito da una sigmoide che ha consentito di trasformare gli output SVM dei 28 pazienti in corrispondenti valori di probabilità. I risultati ottenuti in questa tesi si sono rivelati interessanti anche se vanno considerati preliminari alla luce del numero limitato di pazienti. Si renderà necessaria pertanto una validazione su un gruppo indipendente di pazienti e, in caso di conferma dei risultati, questo lavoro potrà contribuire alla scelta di trattamenti più efficaci per il tumore al seno.

Identification of drug-resistance predictive genes in breast cancer neoadjuvant chemotherapy

MITTEMPERGHER, LORENZA
2009

Abstract

Il tumore al seno è una patologia clinicamente eterogenea e marker biologici in grado di predirne in modo affidabile evoluzione e soprattutto sensibilità ai trattamenti farmacologici rimangono poco definiti. Negli ultimi anni la ricerca ha cercato così di identificare nuovi marker predittivi di risposta, per consentire trattamenti più efficace per ogni singola paziente. Riuscire ad implementare i nuovi fattori predittivi nella pratica clinica rappresenta un importante obiettivo nella ricerca sul tumore al seno. Si potranno così evitare a priori trattamenti inefficaci, che inciderebbero solo negativamente sulla qualità di vita delle pazienti. Per molti anni si è parlato di marker singoli di risposta, ma, alla luce della complessità dei pathway cellulari coinvolti nella risposta del tumore alla chemioterapia ed all'eterogeneità tra i singoli tumori, è improbabile che la risposta o la resistenza ad un trattamento sia determinata dall'azione di un numero limitato di geni. La tecnologia dei microarray ha reso così possibile un'analisi su larga scala dei profili di espressione genica dei tumori al seno ed è stata uno strumento efficace per identificarne sottogruppi molecolari e profili di espressione con valore prognostico. Più recentemente i microarray sono stati anche applicati alla ricerca di geni predittivi di risposta alla chemioterapia. Con l'introduzione della chemioterapia neoadiuvante, ossia somministrata prima dell'intervento chirurgico, è divenuto possibile valutare direttamente la sensibilità del tumore al trattamento chemioterapico attraverso la risposta clinica e patologica della paziente. L'obiettivo principale di questa tesi è stato infatti quello di identificare un set di geni predittivo della risposta ad un particolare trattamento chemioterapico neoadiuvante basato su taxani (paclitaxel) e antracicline (adriamicina o epirubicina). Sono stati analizzati mediante microarray di oligonucleotidi 41 biopsie di tumore al seno prima della somministrazione della chemioterapia neoadiuvante. Delle 41 biopsie raccolte, 37 sono state analizzate con la piattaforma di oligonucleotidi Operon v2.0 presso il CRIBI e 4 sono state analizzate presso il Netherlands Cancer Institute con la piattaforma Operon v3.0. Al termine del trattamento è stato rese noto per 37 pazienti (su 41) l'esito della chemioterapia: 3 pazienti hanno mostrato una risposta clinica completa (cCR), 18 una risposta parziale al trattamento (PR), 13 pazienti non hanno risposto al trattamento, in 11 casi non si è avuto nessun cambiamento nella grandezza della massa tumorale (NC) ed in 2 casi un aumento di quest'ultima (PD). La prima analisi condotta è stata quella volta a verificare la correlazione tra i dati di immunoistochimica (IHC) ottenuti per i 6 marker prognostici ER, PR, Erb-B2, Bcl-2, Ki-67 e p53 ed i livelli di espressione dei rispettivi geni misurati con i microarray. Una significativa correlazione è stata trovata per ER, PR e Bcl-2. Il livello di Bcl-2 ottenuto dall'analisi IHC si è rivelato inoltre significativamente associato con la risposta alla chemioterapia neoadiuvante. Successivamente sono stati identificati i sottotipi molecolari dei 37 tumori analizzati con la piattaforma Operon v2.0 utilizzando l'intrinsic gene set individuato da Perou e colleghi. La maggior parte dei pazienti apparteneva al sottotipo luminale (28 su 37), 7 a quello erb-B2+ e 2 a quello basale. Poiché è stato riportato in letteratura che i sottotipi molecolari di tumore al seno rispondono in modo differente alla chemioterapia neoadiuvante, ho valutato come fossero distribuiti quelli da me identificati rispetto alla risposta clinica al trattamento, se disponibile. Dall'analisi è emerso che i sottogruppi luminale e erb-B2+ erano arricchiti di pazienti PR. E' stata quindi eseguita una cluster analysis gerarchica dei 30 profili di espressione genica (ottenuti con Operon v2.0) delle pazienti di cui era disponibile la risposta alla chemioterapia, per valutare come si sarebbero separate sulla base dell'intero profilo di espressione con un approccio unsupervised (senza cioè dare a priori l'informazione sul tipo di risposta clinica). Le pazienti non si sono separati in sensibili (cCR + PR) e resistenti (NC + PD) al trattamento. Questo risultato ha confermato l'ipotesi che il set di geni predittivi fosse ristretto e che probabilmente venisse mascherato dal grande numero di geni differenzialmente espressi dal tumore. Inoltre il numero limitato di paziente è stato un fattore limitante all'analisi. Sono passata quindi ad un approccio di tipo supervised cercando quei geni in grado di distinguere tumori sensibili e tumori resistenti al trattamento, cioè i geni predittivi della farmacoresistenza. Ho considerato due dataset di pazienti, il dataset I che includeva pazienti PR vs pazienti resistenti (NC e PD) e il dataset II che considerava anche i pazienti cCR nel gruppo di tumori sensibili al trattamento. Il programma PAM (Prediction Analysis of Microarray) ha individuato set di geni predittivi con una bassa performance di classificazione dei pazienti in entrambi i dataset (il 36% dei pazienti veniva classificato in modo sbagliato). Si è reso quindi necessario un nuovo metodo di analisi, più efficace in termini di accuracy di classificazione. Una selezione dei geni significativi basata sulle Support Vector Machines (SVM) è stata considerata una scelta appropriata alla luce delle caratteristiche dello studio: basso numero di pazienti (o esempi) e alto numero di geni (o features). Le SVM infatti sono degli algoritmi di apprendimento supervisionati che lavorano bene in questi casi abbassando il rischio di overfitting, dovuto al numero troppo elevato di features rispetto agli esempi da classificare. In particolare è stato utilizzato l'algoritmo di feature selection R-SVM (Recursive Support Vector Machine) per selezionare quel set di geni con il più basso errore di classificazione sul dataset di pazienti (I e II). Per validare la performance di classificazione dei set di geni selezionati è stata usata una Leave One Out Cross Validation non essendo possibile, a causa del numero ridotto di pazienti, suddividere i dataset in un training and in un test set indipendenti. L'analisi R-SVM ha identificato un set di 54 geni in grado di classificare i 28 pazienti del dataset con un'accuratezza pari all'85% (4 pazienti sbagliati su 28) e un set di 14 geni in grado di classificare le 30 pazienti del dataset II con un'accuratezza del 76% (7 pazienti sbagliati su 30). L'abbassamento del grado di accuracy nel dataset II è stato attribuito al fatto di aver incluso nel gruppo dei pazienti sensibili al trattamento anche i pazienti cCR; in realtà essi avrebbero costituito una classe troppo diversa dai pazienti PR tale da non poter essere inclusa nello stesso gruppo di questi ultimi. Alla luce di quanto detto ho considerato solo il dataset I nelle analisi successive. L'analisi di Gene Ontology sui 54 geni identificati nel dataset I ha rivelato che alcuni di questi geni sono annotati a livello di processi biologici caratteristici della tumorigenesi in generale ("adesione cellulare", "vie di segnalazione dell'insulina", "proliferazione cellulare", "regolazione della proliferazione cellulare"). Alcune categorie funzionali sono invece più legate a processi e compartimenti cellulari target dei farmaci utilizzati in questo studio ("ciclo cellulare", "arresto del ciclo cellulare", "nucleo") ed alla risposta al trattamento ("risposta all'ipossia"). Da una ricerca in letteratura mirata a ciascuno dei 54 geni della lista è emerso che alcuni di essi (MYC, NUF2, SPC25; KFL5, CDKN1b, ITGA6, POSTN) sono implicati nel fenomeno di resistenza a paclitaxel ed antracicline. Altri (CXCL9, CEBPD, IRS2, TCF8, ADAMTS5, PPARGC1A) dimostrano di avere un ruolo in processi collegati a progressione tumorale ed a metastasi ma non hanno un coinvolgimento diretto con la farmacoresistenza oggetto dello studio. A questo punto del lavoro è stato naturale chiedersi come utilizzare il modello SVM allenato usando i 54 geni per predire la risposta alla chemioterapia (con paclitaxel ed antracicline) di un nuovo paziente, non ancora classificato come sensibile o resistente al trattamento. Dal momento che l'output di una SVM è una misura di distanza dall'iperpiano che separa i pazienti positivi (sensibili al trattamento) da quelli negativi (resistenti al trattamento) a cui non è associato un significato statistico, si è pensato di trasformare questo valore in una misura di probabilità di appartenenza alla classe positiva di risposta. Per fare questo è stato utilizzato un modello parametrico definito da una sigmoide che ha consentito di trasformare gli output SVM dei 28 pazienti in corrispondenti valori di probabilità. I risultati ottenuti in questa tesi si sono rivelati interessanti anche se vanno considerati preliminari alla luce del numero limitato di pazienti. Si renderà necessaria pertanto una validazione su un gruppo indipendente di pazienti e, in caso di conferma dei risultati, questo lavoro potrà contribuire alla scelta di trattamenti più efficaci per il tumore al seno.
1-feb-2009
Inglese
breast cancer, microarray technology, predictive signature, neoadjuvant chemotherapy
Università degli studi di Padova
File in questo prodotto:
File Dimensione Formato  
PhD_thesis_lorenza_mittempergher.pdf

accesso aperto

Dimensione 2.56 MB
Formato Adobe PDF
2.56 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/118118
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-118118