Application of machine learning to remove false positive genomic position in vector insertion site data

Omrani, Maryam

Gene Therapy (GT), the recent approach to cure rare and inherited genetic disorders by delivering therapeutic gene in targeted cells interacted with bioinformatics and data analysis-related domains. In GT applications, the molecular monitoring of the treatment is required and exploits Next generation sequencing (NGS) to assess efficacy and safety. One of the principal efforts in IS identification is mapping millions of sequenced reads to the reference genome. Today, several aligners are available for this aim. However, still improving the IS detection performance by choice of appropriate algorithm and testing various pre-/post-alignment filtering strategies is the scope of some works. Since despite the current improvements in the field, some factors like length of sequence reads, repeat regions in the reference genomes and sequence errors decrease the mapping accuracy. False Positive IS, is an IS that is reported at the end of IS identification when it is not present. Mis-alignment is one of the possible sources for False Positive IS.Here, to solve the problem of False Positive and discarding the noise in our clinical IS databases, we first focused on alignment and post-alignment filtering. For this aim, we generated a ground truth of simulated reads overall composed by 125,778,685 sequencing reads containing a total number of 4,333,904 IS and tried to test several steps of our bioinformatics pipeline. We confirmed that BWA-MEM, the widely-used aligner which is also the choice of VISPA2 has a good performance with 91% accuracy. Further analyses revealed that some of the statistic measurements such as Mapping Quality (MAPQ) and Sub optimal Alignment Score (XS) that are reported for each mapping result are not well-correlated with alignment accuracy. Therefore, filtering steps after alignment might lead to discarding many reads without improving the accuracy. Discarding reads which are aligned correctly might highly reduce sequence count. Moreover, knowing that interaction of several factors such as read length, sequencing errors, uniqueness of the reference genome together could contribute to the final alignment outcome, we proposed a decision tree-based filtering approach. Our result showed that XGBoost algorithm and the set of features which are related to sequence reads, alignment statistics and genome properties with the accuracy of 95% is able to identify artifacts of synthetic reads. This suggested that the current filtering approach can be replaced by our proposed method. In the second part, we aimed at assigning a probability score to each IS to be observed in that genomic region. To achieve this goal, we exploited the known genomic preferences of viral vector and added new genomic features to generate a probability score. Our results on GT patients with two different disease backgrounds showed AUROC > 80%. Majority of IS with low probability score have low values for sequence count and re-occurrence. We are now validating isolated data points with more IS specific analyses.

La terapia genica (GT), il recente approccio per curare malattie genetiche rare ed ereditarie fornendo geni terapeutici in cellule mirate, ha interagito con la bioinformatica e i domini correlati all'analisi dei dati. Nelle applicazioni GT, è richiesto il monitoraggio molecolare del trattamento e sfrutta il sequenziamento di nuova generazione (NGS) per valutare l'efficacia e la sicurezza. Uno degli sforzi principali nell'identificazione dell'IS è mappare milioni di letture sequenziate nel genoma di riferimento. Oggi sono disponibili diversi allineatori per questo scopo. Tuttavia, lo scopo di alcuni lavori è ancora migliorare le prestazioni di rilevamento dell'IS tramite la scelta dell'algoritmo appropriato e testare varie strategie di filtraggio pre/post-allineamento. Poiché nonostante gli attuali miglioramenti nel campo, alcuni fattori come la lunghezza delle letture della sequenza, le regioni ripetute nei genomi di riferimento e gli errori di sequenza riducono l'accuratezza della mappatura. SI falso positivo, è un SI che viene riportato alla fine dell'identificazione SI quando non è presente. Il disallineamento è una delle possibili fonti di False Positive IS.Qui, per risolvere il problema dei False Positive e scartare il rumore nei nostri database clinici di IS, ci siamo prima concentrati sull'allineamento e sul filtraggio post-allineamento. A questo scopo, abbiamo generato una verità di base di letture simulate complessivamente composta da 125.778.685 letture di sequenziamento contenenti un numero totale di 4.333.904 IS e abbiamo provato a testare diversi passaggi della nostra pipeline bioinformatica. Abbiamo confermato che BWA-MEM, l'allineatore ampiamente utilizzato che è anche la scelta di VISPA2, ha buone prestazioni con una precisione del 91%. Ulteriori analisi hanno rivelato che alcune delle misurazioni statistiche come la qualità della mappatura (MAPQ) e il punteggio di allineamento subottimale (XS) riportate per ciascun risultato della mappatura non sono ben correlate con l'accuratezza dell'allineamento. Pertanto, i passaggi di filtraggio dopo l'allineamento potrebbero portare a scartare molte letture senza migliorare la precisione. L'eliminazione delle letture allineate correttamente potrebbe ridurre notevolmente il conteggio delle sequenze. Inoltre, sapendo che l'interazione di diversi fattori come la lunghezza di lettura, gli errori di sequenziamento, l'unicità del genoma di riferimento insieme potrebbero contribuire al risultato dell'allineamento finale, abbiamo proposto un approccio di filtraggio basato sull'albero decisionale. Il nostro risultato ha mostrato che l'algoritmo XGBoost e l'insieme di funzionalità correlate alle letture di sequenze, alle statistiche di allineamento e alle proprietà del genoma con una precisione del 95% è in grado di identificare gli artefatti delle letture sintetiche. Ciò ha suggerito che l'attuale approccio di filtraggio può essere sostituito dal nostro metodo proposto. Nella seconda parte, abbiamo mirato ad assegnare un punteggio di probabilità a ciascun IS da osservare in quella regione genomica. Per raggiungere questo obiettivo, abbiamo sfruttato le note preferenze genomiche del vettore virale e aggiunto nuove caratteristiche genomiche per generare un punteggio di probabilità. I nostri risultati su pazienti GT con due diversi background di malattia hanno mostrato AUROC > 80%. La maggior parte degli IS con punteggio di probabilità basso ha valori bassi per il conteggio delle sequenze e la ricorrenza. Ora stiamo convalidando punti di dati isolati con analisi più specifiche dell'IS.