Aviso: Esta página é uma tradução automática da página original em inglês. Por favor note uma vez que as traduções são geradas por máquinas, não tradução tudo será perfeita. Este site e suas páginas da Web destinam-se a ler em inglês. Qualquer tradução deste site e suas páginas da Web pode ser imprecisas e imprecisos no todo ou em parte. Esta tradução é fornecida como uma conveniência.

Os pesquisadores identificam o código da activação do ADN usando a inteligência artificial

Os cientistas têm sabido por muito tempo que os genes humanos saltam na acção com as instruções entregados pelo pedido preciso de nosso ADN, dirigido pelos quatro tipos diferentes de relações individuais, ou nas “bases,” codificaram A, C, G e T.

Quase 25% de nossos genes são de conhecimento geral ser transcritos pelas seqüências que se assemelham a TATAAA, que é chamado de “a caixa TATA.” Como o outro três quartos são girados sobre, ou promovidos, permaneceu um mistério devido ao número enorme de possibilidades da seqüência baixa do ADN, que manteve a informação da activação encoberta.

Agora, com a ajuda da inteligência artificial, os pesquisadores na Universidade da California San Diego identificaram um código da activação do ADN que fosse usado pelo menos tão freqüentemente quanto a caixa de TATA nos seres humanos.

Sua descoberta, que denominou a região a jusante do promotor do núcleo (DPR), poderia eventualmente ser usada para controlar a activação do gene na biotecnologia e em aplicações biomedicáveis. Os detalhes são descritos o 9 de setembro na natureza do jornal.

A identificação do DPR revela uma etapa chave na activação aproximadamente de um quarto a um terço de nossos genes. O DPR foi um enigma; foi controverso mesmo se existe mesmo nos seres humanos. Felizmente, nós pudemos resolver este enigma usando a aprendizagem de máquina.”

James T. Kadonaga, estuda o autor superior e o distinto professor, divisão de ciências biológicas, Universidade da California - San Diego

Em 1996, Kadonaga e seus colegas que trabalham em moscas de fruto identificaram uma seqüência nova da activação do gene, denominada o DPE (que corresponde a uma parcela do DPR), que permite genes de ser girado sobre na ausência da caixa de TATA.

Então, em 1997, encontraram um único DPE-como a seqüência nos seres humanos. Contudo, desde então, decifrar os detalhes e a predominância do DPE humano foi indescritível. O mais impressionante, houve somente dois ou o active três DPE-como seqüências encontrou nos dez dos milhares de genes humanos.

Para rachar este caso após mais de 20 anos, Kadonaga trabalhou com ngoc longo do Vo do autor principal e do erudito cargo-doutoral, Cassidy Yunjing Huang, Jack Cassidy, um cientista de computador aposentado que ajudaram a equipe a leverage as ferramentas poderosas da inteligência artificial, e a Claudia Medrano.

Que Kadonaga descreve como “na computação razoavelmente séria” trouxe para carregar em um problema biológico, pesquisadores feitos uma associação de 500.000 versões aleatórias de seqüências do ADN e avaliou a actividade de DPR de cada um. De lá, 200.000 versões foram usadas para criar um modelo da aprendizagem de máquina que poderia exactamente prever a actividade de DPR no ADN humano.

Os resultados, como Kadonaga descrevem-nos, eram “absurda bons.” Tão bom, de facto, que criaram um modelo similar da aprendizagem de máquina como uma maneira nova de identificar seqüências da caixa de TATA. Avaliaram os modelos novos com milhares de situações de teste em que a caixa de TATA e os resultados de DPR foram sabidos já e encontraram que a capacidade com carácter de previsão era “incrível,” de acordo com Kadonaga.

Estes resultados revelaram claramente a existência do motivo de DPR em genes humanos. Além disso, a freqüência da ocorrência do DPR parece ser comparável àquela da caixa de TATA. Além, observaram uma dualidade intrigante entre o DPR e TATA. Os genes que são activados com seqüências da caixa de TATA faltam seqüências de DPR, e vice-versa.

Kadonaga diz que encontrando as seis bases na seqüência da caixa de TATA era directo. Em 19 bases, rachar o código para DPR era muito mais desafiante.

“O DPR não poderia ser encontrado porque não tem nenhum teste padrão claramente aparente da seqüência,” disse Kadonaga. “Há a informação escondida que é cifrada na seqüência do ADN que lhe faz um elemento activo de DPR. O modelo da aprendizagem de máquina pode decifrar esse código, mas nós seres humanos não podemos.”

Indo para a frente, o uso mais adicional da inteligência artificial para analisar testes padrões da seqüência do ADN deve aumentar a capacidade dos pesquisadores para compreender assim como para controlar a activação do gene em pilhas humanas. Este conhecimento será provavelmente útil na biotecnologia e nas ciências biomedicáveis, disse Kadonaga.

“Da mesma forma essa aprendizagem de máquina permitiu-nos de identificar o DPR, ele é provável que as aproximações relacionadas da inteligência artificial serão úteis para estudar outros motivos importantes da seqüência do ADN,” disse Kadonaga. “Muitas coisas que são inexplicados poderiam agora ser explicáveis.”

Source:
Journal reference:

Vo ngoc, L., et al. Identification of the human DPR core promoter element using machine learning. Nature. doi.org/10.1038/s41586-020-2689-7.