Les scientifiques développent le logiciel de Scanpy pour analyser d'énormes caractéristiques unicellulaires

Les scientifiques du Helmholtz Zentrum München ont développé un programme qui peut aider à manager d'énormes ensembles de données. Le logiciel, nommé Scanpy, est un candidat pour analyser l'atlas de cellule humaine, et a récent été publié dans la biologie de génome de `'.

Visualisation des configurations d'expression du gène des cellules du cerveau murines produites avec Scanpy.
© Helmholtz Zentrum München

« Il est au sujet d'analyser des caractéristiques d'expression du gène d'un grand nombre de différentes cellules, » explique le loup d'Alex d'auteur important de l'institut de la bio-informatique (appel d'offres international) chez Helmholtz Zentrum München. Il a développé Scanpy avec son collègue Philipp Angerer dans le groupe d'apprentissage automatique du prof. M. Fabian Theis. En plus de sa position chez Helmholtz Zentrum, Theis est également un professeur de la modélisation mathématique des systèmes biologiques à l'université de Munich technique. « Les avances techniques neuves produisent de plusieurs ordres de grandeur de plus caractéristiques avec un contenu de l'information également plus grand, » Theis dit. « Cependant, l'infrastructure historiquement évoluée de logiciel pour l'analyse de l'expression des gènes simplement n'a pas été conçue pour satisfaire aux défis neufs. Des méthodes analytiques neuves sont nécessaires pour cette raison. »

Le chemin pour l'atlas de cellule humaine

Selon Theis, un projet de recherche international important a pu également tirer bénéfice du logiciel. Une équipe des scientifiques internationaux compile une base de données de référence, appelée l'atlas de cellule humaine, qui contient des caractéristiques sur l'activité de gène de tous les types de cellule humaine. « Pour ce projet, et dans un nombre de plus en plus important d'autres projets dans lesquels des bases de données sont combinées, il est important d'avoir le logiciel évolutif, » dit Theis. Il n'est pour cette raison aucune surprise que Scanpy est actuel un candidat pour qu'aider analyse l'atlas de cellule humaine.

« La publication de Scanpy marque le premier logiciel qui permet l'analyse globale de grands ensembles de données d'expression du gène avec une large gamme d'apprentissage automatique et de méthodes statistiques, » explique le loup, décrivant l'accomplissement. « Le logiciel déjà est employé par un certain nombre de groupes autour du monde, notamment à l'institut grand de l'Université de Harvard et de Massachusetts Institute of Technology, MIT. »

Technique, l'application est un développement de pionnier : Considérant que des programmes de Biostatistique sont traditionnellement écrits dans le langage de programmation R, Scanpy est basé sur le langage de python, le langage dominant dans la communauté d'apprentissage automatique. Une autre caractéristique neuve est que les algorithmes basés sur graphique se trouvent au coeur de Scanpy. À la différence de l'approche habituelle de considérer des cellules comme les remarques dans un système du même rang dans l'espace d'expression du gène, les algorithmes emploient un système du même rang comme un graphique. Au lieu de caractériser une cellule par la valeur d'expression pour des milliers de gènes, le système caractérise simplement des cellules en recensant leurs voisins plus proches - infiniment comme les liens dans les réseaux sociaux. En fait, pour recenser des types de cellules, Scanpy emploie les mêmes algorithmes que Facebook fait pour recenser des communautés.