Attenzione: questa pagina è una traduzione automatica di questa pagina originariamente in lingua inglese. Si prega di notare in quanto le traduzioni sono generate da macchine, non tutte le traduzioni saranno perfetti. Questo sito web e le sue pagine web sono destinati ad essere letto in inglese. Ogni traduzione del sito e le sue pagine web possono essere imprecise e inesatte, in tutto o in parte. Questa traduzione è fornita per comodità.

I ricercatori identificano il codice di attivazione del DNA facendo uso di intelligenza artificiale

Gli scienziati lungamente hanno saputo che i geni umani balzano in atto con le istruzioni consegnati dall'ordine preciso del nostro DNA, diretto dai quattro tipi differenti di diversi collegamenti, o “nelle basi,„ hanno codificato A, la C, il G ed il T.

Quasi 25% dei nostri geni ampiamente sono conosciuti per essere trascritti dalle sequenze che somigliano a TATAAA, che è chiamato “la casella di TATA.„ Come l'altro tre quarti è acceso, o è promosso, è rimanere un mistero dovuto il numero enorme delle possibilità di sequenza bassa del DNA, che ha tenuto le informazioni di attivazione protette.

Ora, con l'aiuto di intelligenza artificiale, i ricercatori all'università di California San Diego hanno identificato un codice di attivazione del DNA che è utilizzato almeno frequentemente quanto la casella di TATA in esseri umani.

La loro scoperta, che hanno definito la regione a valle del promotore di memoria (DPR), potrebbe finalmente essere usata per gestire l'attivazione del gene nella biotecnologia e nelle applicazioni biomediche. I dettagli sono descritti il 9 settembre nella natura del giornale.

L'identificazione del DPR rivela un punto chiave nell'attivazione circa di un quarto ad un terzo dei nostri geni. Il DPR è stato un enigma; è stato discutibile indipendentemente da fatto che anche esiste in esseri umani. Fortunatamente, abbiamo potuti risolvere questo puzzle usando l'apprendimento automatico.„

James T. Kadonaga, studia l'autore senior ed il professor distinto, divisione delle scienze biologiche, università di California - San Diego

Nel 1996, Kadonaga ed i suoi colleghi che lavorano nelle mosche di frutta hanno identificato una sequenza novella di attivazione del gene, definita il DPE (che corrisponde ad una parte del DPR), che permette ai geni di essere acceso in assenza della casella di TATA.

Poi, nel 1997, hanno trovato una sola sequenza del tipo di DPE in esseri umani. Tuttavia, da allora, decifrare i dettagli e la prevalenza del DPE umano è stato evasivo. Il più in maniera sconvolgente, ci sono stati soltanto due o tre sequenze del tipo di DPE attive hanno trovato in decine di migliaia di geni umani.

Per incrinare questo caso dopo più di 20 anni, Kadonaga ha funzionato con il ngoc lungo di Vo dello studioso post-dottorato e dell'autore principale, Cassidy Yunjing Huang, Jack Cassidy, un informatico pensionato che hanno aiutato il gruppo a fare leva gli strumenti potenti di intelligenza artificiale e Claudia Medrano.

Che Kadonaga descrive come “nel calcolo equo serio„ ha applicato in un problema biologico, i ricercatori resi ad un raggruppamento di 500.000 versioni casuali delle sequenze del DNA ed ha valutato l'attività di DPR di ciascuno. Da là, 200.000 versioni sono state usate per creare un modello di apprendimento automatico che potrebbe predire esattamente l'attività di DPR in DNA umano.

I risultati, come Kadonaga le descrive, erano “assurdamente buoni.„ Così buon, infatti, che hanno creato un simile modello di apprendimento automatico come nuovo modo identificare le sequenze della casella di TATA. Hanno esaminato i nuovi modelli con migliaia di cause in cui la casella di TATA ed i risultati di DPR già sono stati conosciuti ed hanno trovato che l'attendibilità previsionale era “incredibile,„ secondo Kadonaga.

Questi risultati hanno rivelato chiaramente l'esistenza del motivo di DPR in geni umani. Inoltre, la frequenza dell'avvenimento del DPR sembra essere comparabile a quella della casella di TATA. Inoltre, hanno osservato una dualità intrigante fra il DPR e TATA. I geni che sono attivati con le sequenze della casella di TATA mancano delle sequenze di DPR e vice versa.

Kadonaga dice che trovando le sei basi sulla sequenza della casella di TATA era diretto. A 19 basi, incrinare il codice per DPR era molto più provocatoria.

“Il DPR non potrebbe essere trovato perché non ha reticolo chiaramente evidente di sequenza,„ ha detto Kadonaga. “Ci sono informazioni nascoste che sono cifrate nella sequenza del DNA che le rende un elemento dell'attivo DPR. Il modello di apprendimento automatico può decifrare quel codice, ma esseri umani non possiamo.„

Andando in avanti, ulteriore uso di intelligenza artificiale per analizzare i reticoli di sequenza del DNA dovrebbe aumentare l'capacità dei ricercatori di comprensione come pure gestire attivazione del gene in cellule umane. Questa conoscenza probabilmente sarà utile in biotecnologia e nelle scienze biomediche, ha detto Kadonaga.

“Allo stesso modo quell'apprendimento automatico ci ha permesso di identificare il DPR, è probabile che gli approcci relativi di intelligenza artificiale saranno utili per lo studio degli altri motivi importanti di sequenza del DNA,„ ha detto Kadonaga. “Molte cose che sono non spiegate potrebbero ora essere spiegabili.„

Source:
Journal reference:

Vo ngoc, L., et al. Identification of the human DPR core promoter element using machine learning. Nature. doi.org/10.1038/s41586-020-2689-7.