Avertissement : Cette page est une traduction automatique de cette page à l'origine en anglais. Veuillez noter puisque les traductions sont générées par des machines, pas tous les traduction sera parfaite. Ce site Web et ses pages Web sont destinés à être lus en anglais. Toute traduction de ce site et de ses pages Web peut être imprécis et inexacte, en tout ou en partie. Cette traduction est fournie dans une pratique.

Le LLNL aboutit la collaboration multi-institutionnelle en modélisant des interactions de protéines jointes au cancer

Les scientifiques, les biophysiciens et les statisticiens de calcul du laboratoire national de Lawrence Livermore (LLNL) et du laboratoire national de Los Alamos (LANL) aboutissent une collaboration multi-institutionnelle massive qui a développé une simulation apprendre de machine pour les superordinateurs de la deuxième génération capables de modéliser des interactions de protéines et les mutations qui jouent un rôle sous beaucoup de formes des cancers.

La recherche provient d'un projet pilote dans le modèle commun des solutions calculantes avancées pour le programme du cancer (JDACS4C), d'une collaboration entre le ministère de l'énergie le bureau (DOE) de la Science, de la gestion nucléaire nationale et (NNSA) de l'Institut national du cancer de garantie (NCI) qui est supporté en partie par le cancer Moonshot. Le travail est publié par la conférence 2019 de superinformatique, retenue les 17-22 novembre à Denver, où il est parmi les finalistes pour la meilleure récompense de papier de la conférence.

L'article, qui comprend également des cotisations de laboratoire national d'Oak Ridge (ORNL), du laboratoire national de Frederick pour la cancérologie (FNLCR) et d'IBM, décrit une approche prévisionnelle et de multi-écaille pour modéliser la dynamique des protéines de RAS - ; une famille des protéines dont les mutations sont liées à plus de 30 pour cent de tous les cancers humains - ; et membranes de lipide, ainsi que l'activation de la signalisation oncogène par l'interaction avec des protéines de RAF. Le NCI a déterminé l'initiative de RAS en 2013 pour explorer la biologie du mutant RAS (oncogène) et pour produire éventuel des opportunités thérapeutiques neuves pour les cancers liés RAS.

L'informaticien de LLNL et l'auteur important Francesco Di Natale, qui présenteront le papier à la conférence, ont dit que l'équipe a adopté une approche grande à modéliser des interactions de protéines de RAS. L'équipe a commencé par un macromodèle capable de simuler le choc d'une membrane de lipide sur des protéines de RAS à de longs calendriers et a comporté un algorithme d'apprentissage automatique pour déterminer quel lipide « corrections » étaient assez intéressants pour modéliser plus en détail avec un micromodel de niveau moléculaire. Le résultat est un Multiscale massivement parallèle l'infrastructure de modélisation que Machine-Instruite (MuMMI) cette écaille efficacement sur grand, rendement élevé hétérogène calculant des machines comme la sierra du LLNL et le sommet d'ORNL.

Tandis que le concept d'une simulation de multiscale n'est pas neuf à la dynamique moléculaire, Di Natale a dit, introduisant l'apprentissage automatique au procédé précédemment manuel de sélecter des corrections d'intérêt est temps d'un calcul d'approche nouvelle, de sauvegarder et argent sur les simulations chères qui peuvent ou ne pas fournir les informations importantes.

« Le modèle d'apprentissage automatique nous laisse retirer l'être humain de la boucle tout en obtenant toujours des caractéristiques réellement appropriées de la graine, » Di Natale a dit. « L'avantage à faire automatiser le procédé est que nous commençons à voir les protéines multiples de RAS dans une correction, et elle est quelque chose il serait difficile de faire que manuellement. Soudainement, nous pouvons voir à quelle distance à part les protéines de RAS naturellement installer et fournir alors des résultats à la communauté plus exactement au modèle il, parce que nous avons toute cette caractéristique. Vous pouvez commencer à poser des questions sur ce qui se produit normalement plutôt qu'estimant aux paramètres admissibles. »

Le mécanisme et la dynamique de la façon dont les protéines de RAS agissent l'un sur l'autre, comment elles agissent l'un sur l'autre avec le RAF et introduisent la signalisation oncogène, et comment l'activité de l'affect RAS de composition de lipide (les composés organiques solubles qui aident à composer des membranes cellulaires) ne sont pas bons compris. Pour cet article, l'équipe a simulé l'interaction entre RAS et huit des lipides les plus appropriés pour vérifier la dynamique et l'interaction de RAS. Ils ont simulé une 1 correction de membrane de by-1-micrometer avec 300 protéines différentes de RAS pour analyser les membranes afin de produire statistiquement des observations appropriées qui peuvent être vérifiées expérimental à FNLCR.

Nous avons décidé que cela au lieu faisant ce qui traditionnellement a été fait avec des simulations - prenant une membrane modèle avec un ou deux lipides - ces de nous essayerait de la rendre réaliste et de modéliser une membrane biologiquement appropriée. L'objectif est de caractériser la totalisation de RAS, les interactions de RAS-protéine et les interactions de RAS-lipide, observant quels types de lipides dictent le comportement de RAS et l'installent sur la membrane. Nous voulons voir si nous pouvons moduler l'activité de RAS avec différents types de lipides ou un certain genre de pharmaceutique, pour ne pas éliminer l'activité de RAS mais pour la moduler dans différentes voies, comme introduire les conditions inactives. »

Helgi Ingólfsson, biologiste de calcul de LLNL, fil technique sur le projet

Les scientifiques de LANL ont mené les efforts sur déterminer un étalon-or pour ce cadre de MuMMI utilisant des simulations atomistiques et ont abouti l'analyse de ces simulations de grande puissance à la compréhension mécaniste d'extrait de la biologie de RAS dans le cadre d'une membrane. Les compétences de LANL dans la quantification d'une incertitude étaient critiques pour recenser statistiquement les propriétés biophysiques significatives dans le cadre de multiscale.

Au cours du projet, l'équipe a constaté que les ensembles de RAS ont un environnement préféré de membrane, et cela utilisant l'apprentissage automatique (ML) pour sélecter automatiquement certaines corrections pour des simulations plus de haute résolution de niveau moléculaire a des avantages distincts par rapport au choix randomisé de correction, fournissant une couverture plus large de l'espace de phase de l'environnement de lipide de RAS.

« Explorer la constitution de l'AI et le ml avec la simulation de haute performance était un thème intégrant pour les trois pilotes de DOE/NCI qui comportent JDACS4C, » a dit Fred Streitz, Co-fil pilote et responsable de scientifique dans l'artificial intelligence et bureau de technologie au Département de l'énergie, qui combine des projets d'AI en travers de l'entreprise de DAINE. « Cette application met en valeur réellement combien puissant les deux technologies peuvent être, et combien de plus efficaces nous pouvons être, en fonctionnant dedans ensemble. »

Le laboratoire national de Frederick réalise l'essai expérimental pour s'assurer que les modèles sont préposé du service des résultats biologiques réels. Les modèles aideront le NCI à effectuer des expériences pour vérifier des prévisions et produire de plus de caractéristiques qui rétroagiront dans le modèle d'apprentissage automatique, produisant une boucle de validation qui produira un modèle plus précis, les chercheurs ont dit. La grande campagne de simulation laisse aborder une gamme étendue de question scientifique sans besoin de simulations neuves.

« Là nous pouvons réellement voir le potentiel vrai de avoir tant de différents types de simulations, les deux dans tant de différents environnements et également la valeur pure, et posons presque n'importe quelle question que nous voulons, » Ingólfsson a dit. « Maintenant nous pouvons répondre à ces questions après le fait parce que nous avons assez de caractéristiques pour le faire. »

Pour le modèle de micro-échelle, l'équipe a employé un indicatif de dynamique moléculaire adopté pour le modèle à gros grain de Martini. Il a été adapté pour GPUs au passage sur la sierra, lui effectuant vraisemblablement le seul indicatif général de dynamique moléculaire pour fonctionner complet sur GPUs, les chercheurs ont dit. Le travail a étiré les limites de la sierra tôt système d'accès, comme chaque « correction, » représentant un endroit environ de 30 par 30 nanomètres, contenu environ 140.000 talons de grossier-texture et milliers de différents lipides.

Tandis que le système était toujours dans son environnement sans classification, l'équipe a fait fonctionner presque 120.000 simulations sur la sierra, prenant 5,6 millions d'heures de GPU de temps et de se produire de calcul des 320 Terabyte massifs des caractéristiques. Le nombre de simulations « décalait, » les chercheurs ont dit, ajoutant que le plus grand nombre de simulations de Martini faites en même temps était seulement dans les milliers avant ce projet.

Le « fonctionnement à cette écaille explique les beaucoup de les défis que nous allons devoir commencer à discuter, » Di Natale a dit. « Vous pouvez seulement enregistrer tant de disques durs avant qu'il devienne dans l'espace et financièrement insoutenable pour manager que beaucoup de caractéristique. C'est une incursion dans des problèmes de la deuxième génération potentiels. C'est la première preuve d'où l'inducteur commence à disparaître, et cela signifie seule plus de douleurs de croissance. »

L'équipe continue le travail système sans classification sur de Lassen, de sierra accouplement et actuel le systèmeth de la superinformatique 10 le plus rapide dans le monde, selon la liste Top500. Ils préparent pour faire fonctionner la phase suivante sur le superordinateur le plus puissant du monde, le sommet d'Oak Ridge, dans le courant de l'année, refactoring l'indicatif et ajoutant des améliorations variées.