Los investigadores de UW desarrollan el modelo nuevo a predicen más exactamente mutaciones genéticas dañinas

Entre cualquier dos personas, hay probable ser por lo menos 10 millones de diferencias en la serie genética que compone su DNA.

La mayor parte de estas diferencias no alteran la manera que las células se comportan o que causan problemas de salud. Pero algunas variaciones genéticas aumentan grandemente la probabilidad que una persona desarrollará el cáncer, la diabetes, el colorblindness o un ordenador principal de otras enfermedades.

A Pesar De avances rápidos en nuestra capacidad de correlacionar el genoma de un individuo - la codificación exacta que compone sus genes - conocemos mucho menos sobre las cuales las mutaciones o las anomalías causan real enfermedad.

Ahora, un modelo nuevo y público - la herramienta disponible del Web desarrollada por la Universidad de los investigadores de Washington puede más exactamente y predice cuantitativo qué mutaciones genéticas cambian importante cómo los genes empalman y pueden autorizar la atención creciente de investigadores de la enfermedad y de reveladores de la droga.

El modelo - el primer para entrenar a un algoritmo de aprendizaje de máquina en granes cantidades de datos genéticos creados con técnicas sintetizadas de la biología - se contornea en un papel publicado en la aplicación del 22 de octubre la Célula.

“Algunas personas tienen variaciones en un gen determinado, pero qué usted quiere realmente conocer es si importan ésos o no,” dijo al autor importante Alexander Rosenberg, estudiante doctoral de la ingeniería eléctrica de UW. “Este modelo puede ayudarle a estrechar hacia abajo el universo - enorme - de las mutaciones que pudieron ser más probable causar enfermedad.”

Particularmente, el modelo predice cómo estas variaciones genéticas de la serie afectan a empalmar de la opción - un proceso crítico que permita a un único gen crear muchos diversos formularios de proteínas incluyendo o excluyendo recortes del ARN.

“Ésta es una avenida que es inexplorada en gran parte,” dijo a Rosenberg. “Es bastante fácil observar cómo las mutaciones afectan a las proteínas directamente, pero la gente no ha podido observar cómo las mutaciones afectan a las proteínas con empalmar.”

Por ejemplo, un científico que estudiaba los apuntalamientos genéticos del cáncer o de la depresión de pulmón o un defecto de nacimiento determinado podría pulsar la serie lo más común posible compartida de la DNA de un gen determinado en la herramienta del Web, así como variaciones múltiples. El modelo informará a científico qué mutaciones causan diferencias excesivas en cómo el gen empalma - cuál podrían ser un señal del problema - y cuál tiene poco o nada de efecto.

El investigador todavía necesitaría investigar si una serie genética determinada cause cambios dañinos, pero la herramienta en línea puede ayudar a eliminar las muchas variaciones que no son probables estar de interés a los investigadores de la salud. Para validar las potencias proféticas del modelo, las personas de UW la probaron en un puñado de mutaciones bien-entendidas tales como los en el gen BRCA2 que se han conectado al pecho y al cáncer ovárico.

Comparado a los modelos previamente publicados, la aproximación de UW es áspero tres veces más exacta en predecir el fragmento al cual una mutación hará el material genético ser incluida o ser excluida en el proceso de proteína-fabricación - que puede cambiar cómo esas proteínas funcionan y hacen procesos biológicos ir mal.

eso es porque las personas de UW utilizaron una nueva aproximación que combina técnicas de aprendizaje sintetizadas de la biología y de máquina para crear el modelo.

Los algoritmos de aprendizaje de Máquina - que permiten a los ordenadores deducir reglas y “aprenda” de granes cantidades de datos - llegados a ser más exactos más datos se exponen a. Pero el genoma humano tiene solamente áspero 25.000 genes que creen las proteínas.

Usando técnicas comunes de la biología molecular, las personas de UW crearon una biblioteca sobre de 2 millones de “mini-genes sintetizados” incluyendo series al azar de la DNA. Entonces determinaron cómo cada elemento de la serie al azar afectó a donde los genes empalmados y a qué tipos de ARN fueron producidos - que determina final qué proteínas consiguen hechas.

Que una biblioteca más grande de datos sintetizados esencialmente enseña al modelo para llegar a ser más elegante, dijo al autor importante Jorge Seelig, profesor adjunto de UW de la ingeniería eléctrica y de informática y de la ingeniería.

“Nuestro algoritmo trabaja el receptor de papel estupendo porque fue entrenado en estos grupos de datos sintetizados. Y la razón que trabaja está tan bien porque ese grupo de datos sintetizado es órdenes de magnitud más grandes que el entrenamiento le fijó consigue del genoma humano real,” dijo a Seelig.

“Es notable que un modelo entrenado totalmente en datos sintetizados puede superar los modelos entrenados directamente en el genoma humano en la tarea de predecir el impacto de mutaciones en gente,” él dijo.

Los pasos de progresión Siguientes de la investigación incluyen desplegar la aproximación más allá de la opción que empalma a otros procesos que determinen cómo se expresan los genes.

Mientras tanto, haciendo la herramienta del Web libremente y público - disponible, las personas esperan que otros científicos utilizarán su modelo que empalma alternativo - y hacer final progreso en estrecharse abajo de qué variaciones genéticas naturales son las más significativas cuando se trata de salud y de enfermedad.

“Otros grupos y compañías de investigación pueden utilizar nuestro modelo para alinear los campos de interés a ellas,” Seelig dijo. “Esperamos que otras personas lleven este más lejos aplicaciones más clínicas.”

Fuente: Universidad de Washington