Les chercheurs d'UW développent le modèle neuf à prévoient plus exactement des mutations génétiques nuisibles

Entre deux personnes quelconques, il y est susceptible d'être au moins 10 millions de différences dans la séquence génétique qui compose leur ADN.

La plupart de ces différences ne modifient pas la voie que les cellules se comportent ou posent des problèmes de santé. Mais quelques variations génétiques augmentent grand la probabilité qu'une personne développera le cancer, le diabète, le colorblindness ou une foule d'autres maladies.

En dépit des avances rapides dans notre capacité de tracer le génome d'une personne - le codage précis qui compose ses gènes - nous connaissons beaucoup moins au sujet dont les mutations ou les anomalies entraînent réellement la maladie.

Maintenant, un modèle neuf et publiquement - l'outil web procurable développé par l'université des chercheurs de Washington mettent en boîte plus exactement et prévoient quantitativement quelles mutations génétiques changent de manière significative comment les gènes épissent et peuvent justifier l'attention accrue des chercheurs de la maladie et des révélateurs de médicament.

Le modèle - le premier pour former un algorithme d'apprentissage automatique sur des immenses quantités de caractéristiques génétiques produites avec des techniques synthétiques de biologie - est donné dans un papier publié dans la question du 22 octobre de la cellule.

« Certains ont des variations dans un gène particulier, mais ce que vous voulez réellement connaître est, que ceux importent ou pas, » a dit l'auteur important Alexandre Rosenberg, un étudiant au doctorat de génie électrique d'UW. « Ce modèle peut vous aider à rétrécir vers le bas l'univers - énormement - des mutations qui pourraient être le plus susceptibles d'entraîner la maladie. »

En particulier, le modèle prévoit comment ces variations génétiques de séquence affectent l'épissage alternatif - un procédé critique qui permet à un gène unique de produire beaucoup de différentes formes des protéines en comprenant ou en excluant des extraits d'ARN.

« C'est une avenue qui est encore inconnue largement, » a dit Rosenberg. « Il est assez facile de regarder comment les mutations affectent des protéines directement, mais les gens n'ont pas pu regarder comment les mutations affectent des protéines par l'épissure. »

Par exemple, un scientifique étudiant les soutiens génétiques du cancer ou de la dépression de poumon ou une anomalie congénitale particulière pourrait taper la séquence d'ADN le plus couramment partagée dans un gène particulier dans l'outil web, ainsi que des variations multiples. Le modèle indiquera au scientifique quelles mutations entraînent des différences de grande taille dans la façon dont le gène épisse - ce qui pourrait être un signe de panne - et ce qui ont peu ou pas d'effet.

Le chercheur devait toujours vérifier si une séquence génétique particulière entraîne les modifications nuisibles, mais l'outil en ligne peut aider à éliminer les nombreuses variations qui ne sont pas susceptibles d'être d'intérêt aux chercheurs de santé. Pour valider les pouvoirs prévisionnels du modèle, l'équipe d'UW l'a vérifié sur une poignée de mutations bien-comprises de ce type dans le gène BRCA2 qui ont été liés au sein et au cancer ovarien.

Comparé aux modèles précédemment publiés, l'approche d'UW est approximativement trois fois plus précise à prévoir le point auquel une mutation causera le matériel génétique d'être compris ou exclu dans le procédé protéine-effectuant - qui peut changer comment ces protéines fonctionnent et font aller des procédés biologiques de travers.

C'est parce que l'équipe d'UW a employé une approche neuve qui combine des techniques synthétiques de biologie et d'apprentissage automatique pour produire le modèle.

Les algorithmes d'apprentissage automatique - qui permettent à des ordinateurs d'impliquer des règles et « apprenez » des immenses quantités de caractéristiques - devenues plus précises plus elles sont exposées à caractéristiques. Mais le génome humain a seulement approximativement 25.000 gènes qui produisent des protéines.

Utilisant des techniques courantes de biologie moléculaire, l'équipe d'UW a produit une bibliothèque de plus de 2 millions de « mini-gènes » synthétiques en incluant des séquences d'ADN faites au hasard. Alors ils ont déterminé comment chaque élément de séquence faite au hasard a affecté où des gènes épissés et quels types d'ARN ont été produits - qui détermine éventuel quelles protéines obtiennent effectuées.

Qu'une plus grande bibliothèque des caractéristiques synthétiques essentiellement enseigne le modèle pour devenir plus sec, a indiqué l'auteur important Georg Seelig, un professeur adjoint d'UW de génie électrique et de l'informatique et du bureau d'études.

« Notre algorithme fonctionne le puits superbe parce qu'il a été formé sur ces ensembles de données synthétiques. Et la raison que cela fonctionne est tellement bien parce que cet ensemble de données synthétique est des ordres de grandeur plus importants que la formation vous a réglé obtiennent du génome humain réel, » a dit Seelig.

« Il est remarquable qu'un modèle qualifié entièrement sur des caractéristiques synthétiques puisse surpasser des modèles qualifiés directement sur le génome humain sur la tâche de prévoir le choc des mutations dans les gens, » il a dit.

Les prochaines opérations de recherches comprennent augmenter l'approche au delà de l'épissage alternatif à d'autres procédés qui déterminent comment des gènes sont exprimés.

Dans le même temps, en effectuant l'outil web librement et publiquement - procurable, l'équipe espère que d'autres scientifiques emploieront leur modèle d'épissage alternatif - et accomplir éventuel le progrès dans le rétrécissement en bas de quelles variations génétiques naturelles sont les plus signicatives quand il s'agit de santé et maladie.

De « autres organismes de recherche et compagnies peuvent employer notre modèle pour classer les centres d'intérêt à elles, » Seelig a dit. « Nous espérons que d'autres gens prendront le ce davantage à plus d'applications cliniques. »

Source:

University of Washington