Avertissement : Cette page est une traduction automatique de cette page à l'origine en anglais. Veuillez noter puisque les traductions sont générées par des machines, pas tous les traduction sera parfaite. Ce site Web et ses pages Web sont destinés à être lus en anglais. Toute traduction de ce site et de ses pages Web peut être imprécis et inexacte, en tout ou en partie. Cette traduction est fournie dans une pratique.

Les chercheurs recensent l'indicatif d'activation d'ADN utilisant l'artificial intelligence

Les scientifiques ont longtemps su que les gènes humains jaillissent dans l'action par des directives livrés par la commande précise de notre ADN, dirigée par les quatre types différents de différentes tiges, ou les « bases, » ont codé A, C, G et T.

Presque 25% de nos gènes sont largement connus pour être transcrits par les séquences qui ressemblent à TATAAA, qui est appelé la « boîte Tata. » Comment autres trois quarts sont allumés, ou introduits, est demeuré un mystère dû au nombre énorme de possibilités de séquence de bases d'ADN, qui a maintenu l'information d'activation enveloppée.

Maintenant, avec l'aide de l'artificial intelligence, les chercheurs à l'Université de Californie San Diego ont recensé un indicatif d'activation d'ADN qui est employé au moins aussi fréquemment que la boîte Tata Chez l'homme.

Leur découverte, qu'elles ont nommée la région en aval de promoteur de faisceau (DPR), pourrait éventuellement être employée pour régler l'activation de gène dans la biotechnologie et les applications biomédicales. Les petits groupes sont décrits le 9 septembre dans la nature de tourillon.

L'identification du DPR indique une opération principale dans l'activation environ d'un quart à un tiers de nos gènes. Le DPR a été une énigme ; il a été controversé si ou non il existe même chez l'homme. Heureusement, nous avons pu résoudre ce puzzle à l'aide de l'apprentissage automatique. »

James T. Kadonaga, auteur supérieur d'étude et professeur distingué, Division des sciences biologiques, Université de Californie - San Diego

En 1996, Kadonaga et ses collègues travaillant dans des mouches à fruit ont recensé une séquence nouvelle d'activation de gène, nommée le DPE (qui correspond à une partie du DPR), qui permet à des gènes d'être allumés faute de boîte Tata.

Puis, en 1997, ils ont trouvé une séquence comme DPE unique chez l'homme. Cependant, depuis lors, le déchiffrement des détails et de la prévalence du DPE humain a été évasif. Le plus de façon saisissante, il y a eu seulement de deux ou trois séquences comme DPE actives ont trouvé dans les dizaines de milliers de gènes humains.

Pour fissurer ce cas après plus de 20 ans, Kadonaga a fonctionné avec ngoc de Vo d'auteur important et de chercheur post-doctoral le long, le Cassidy Yunjing Huang, le Jack Cassidy, un informaticien retraité qui ont aidé l'équipe à influencer les puissants outils de l'artificial intelligence, et Claudia Medrano.

Dans quel Kadonaga décrit comme « le calcul assez sérieux » s'est appliqué dans un problème biologique, les chercheurs effectués un gisement de 500.000 versions faites au hasard des séquences d'ADN et a évalué l'activité de DPR de chacun. De là, 200.000 versions ont été employées pour produire un modèle d'apprentissage automatique qui pourrait exactement prévoir l'activité de DPR dans l'ADN humain.

Les résultats, comme Kadonaga les décrit, étaient « absurdement bons. » Si bon, en fait, qu'ils ont produit un modèle assimilé d'apprentissage automatique comme voie neuve de recenser des séquences de boîte Tata. Ils ont évalué les modèles neufs avec des milliers de jeux d'essai dans lesquels la boîte Tata Et des résultats de DPR ont été déjà connus et ont constaté que la capacité prévisionnelle était « incroyable, » selon Kadonaga.

Ces résultats ont clairement indiqué l'existence du motif de DPR en gènes humains. D'ailleurs, la fréquence du cas du DPR semble être comparable à celle de la boîte Tata. De plus, ils ont observé une dualité intrigante entre le DPR et TATA. Les gènes qui sont activés avec des séquences de boîte Tata Manquent des séquences de DPR, et vice versa.

Kadonaga dit que trouvant les six bases dans la séquence de boîte Tata Était droit. À 19 bases, la fissure de l'indicatif pour DPR était beaucoup plus provocante.

« Le DPR ne pourrait pas être trouvé parce qu'il n'a aucune configuration clairement apparente de séquence, » a dit Kadonaga. « Il y a de l'information cachée qui est encryptée dans la séquence d'ADN qui lui effectue un élément actif de DPR. Le modèle d'apprentissage automatique peut déchiffrer cet indicatif, mais nous des êtres humains ne pouvons pas. »

Allant vers l'avant, l'utilisation supplémentaire de l'artificial intelligence pour analyser des configurations de séquence d'ADN devrait augmenter la capacité des chercheurs de comprendre ainsi que pour régler l'activation de gène en cellules humaines. Cette connaissance sera vraisemblablement utile en biotechnologie et dans les sciences biomédicales, a dit Kadonaga.

« De la même manière cet apprentissage automatique nous a permis de recenser le DPR, il est susceptible que les approches relatives d'artificial intelligence seront utiles pour étudier d'autres motifs importants de séquence d'ADN, » a dit Kadonaga. « Beaucoup de choses qui sont inexpliquées pourraient maintenant être explicables. »

Source:
Journal reference:

Vo ngoc, L., et al. Identification of the human DPR core promoter element using machine learning. Nature. doi.org/10.1038/s41586-020-2689-7.