Os pesquisadores de UW desenvolvem o modelo novo a prevêem mais exactamente mutações genéticas prejudiciais

Entre todos os dois povos, há provável estar pelo menos 10 milhão diferenças na seqüência genética que compo seu ADN.

A Maioria destas diferenças não alteram a maneira que as pilhas se comportam ou se causam problemas de saúde. Mas algumas variações genéticas aumentam extremamente a probabilidade que uma pessoa desenvolverá o cancro, o diabetes, o colorblindness ou um anfitrião de outras doenças.

Apesar dos avanços rápidos em nossa capacidade para traçar o genoma de um indivíduo - a codificação precisa que compo seus genes - nós conhecemos muito menos sobre que as mutações ou as anomalias causam realmente a doença.

Agora, um modelo novo e publicamente - a ferramenta disponível da Web desenvolvida pela Universidade de pesquisadores de Washington enlata mais exactamente e prevê quantitativa que mutações genéticas mudam significativamente como os genes emendam e podem justificar a atenção aumentada dos pesquisadores da doença e dos reveladores da droga.

O modelo - o primeiro para treinar um algoritmo de aprendizagem da máquina em vastas quantidades de dados genéticos criados com as técnicas sintéticas da biologia - é esboçado em um papel publicado na introdução do 22 de outubro da Pilha.

“Alguns povos têm variações em um gene particular, mas o que você quisesse realmente conhecer fosse se aqueles importam ou não,” disse o autor principal Alexander Rosenberg, um estudante doutoral de engenharia elétrica de UW. “Este modelo pode ajudá-lo a reduzir para baixo o universo - enorme - das mutações que puderam ser mais provável causar a doença.”

Em particular, o modelo prevê como estas variações genéticas da seqüência afectam a emenda da alternativa - um processo crítico que permita um único gene de criar muitos formulários diferentes das proteínas incluindo ou excluindo pequenas notícias do RNA.

“Esta é uma avenida que seja inexplorada em grande parte,” disse Rosenberg. “É razoavelmente fácil olhar como as mutações afectam proteínas directamente, mas os povos não puderam olhar como as mutações afectam proteínas com da emenda.”

Por exemplo, um cientista que estudam os sustentamentos genéticos do câncer pulmonar ou da depressão ou um defeito congénito particular poderiam dactilografar a seqüência o mais geralmente compartilhada do ADN em um gene particular na ferramenta da Web, assim como variações múltiplas. O modelo dirá ao cientista que mutações causam diferenças desproporcionados em como o gene emenda - qual poderiam ser um sinal do problema - e quais têm quase nenhum efeito.

O pesquisador ainda precisaria de investigar se uma seqüência genética particular causa mudanças prejudiciais, mas a ferramenta em linha pode ajudar a ordenar para fora muitas variações que não são prováveis ser do interesse aos pesquisadores da saúde. Para validar as potências com carácter de previsão do modelo, a equipe de UW testou-a em um punhado de mutações bem-compreendidas tais como aqueles no gene BRCA2 que foram ligadas ao peito e ao cancro do ovário.

Comparado aos modelos previamente publicados, a aproximação de UW é aproximadamente três vezes mais exacta em prever a extensão a que uma mutação fará com o material genético seja incluído ou excluído no processo defactura - que pode mudar como aquelas proteínas funcionam e fazem com que os processos biológicos vão awry.

isso é porque a equipe de UW usou uma aproximação nova que combine técnicas de aprendizagem sintéticas da biologia e da máquina para criar o modelo.

Os algoritmos de aprendizagem da Máquina - que permitem computadores de pressupr regras e “aprenda” das vastas quantidades de dados - tornados mais exactos mais dados são expor a. Mas o genoma humano tem somente aproximadamente 25.000 genes que criam proteínas.

Usando técnicas comuns da biologia molecular, a equipe de UW criou uma biblioteca sobre de 2 milhão “mini-genes sintéticos” incluindo seqüências aleatórias do ADN. Então determinaram como cada elemento da seqüência aleatória afectou onde os genes emendados e que tipos de RNA foram produzidos - que determina finalmente que proteínas obtêm feitas.

Que a biblioteca maior de dados sintéticos essencialmente ensina o modelo para se tornar mais esperto, disse o autor principal Georg Seelig, um professor adjunto de UW da engenharia elétrica e da informática & da engenharia.

“Nosso algoritmo trabalha o poço super porque foi treinado nestes conjunto de dados sintéticos. E a razão que trabalha é tão bem porque esse conjunto de dados sintético é ordens de grandeza maiores do que o treinamento o ajustou obtem do genoma humano real,” disse Seelig.

“É notável que um modelo treinado inteiramente em dados sintéticos pode outperform os modelos treinados directamente no genoma humano na tarefa de prever o impacto das mutações nos povos,” ele disse.

As etapas Seguintes da pesquisa incluem a expansão da aproximação além da alternativa que emenda a outros processos que determinam como os genes são expressados.

Entretanto, fazendo a ferramenta da Web livre e publicamente - disponível, a equipe espera que outros cientistas usarão seu modelo de emenda alternativo - e para fazer finalmente o progresso no redução abaixo de que variações genéticas naturais são as mais significativas quando se trata da saúde e da doença.

“Outros grupos de investigação e empresas podem usar nosso modelo para classificar-lhes as áreas de interesse,” Seelig disse. “Nós esperamos que outros povos tomarão o este mais a umas aplicações mais clínicas.”

Source:

Universidade de Washington