Los científicos desarrollan el software de Scanpy para analizar datos unicelulares enormes

Los científicos del Helmholtz Zentrum München han desarrollado un programa que puede ayudar a manejar grupos de datos enormes. El software, nombrado Scanpy, es un candidato a analizar el atlas de la célula humana, y se ha publicado recientemente en biología del genoma del `'.

Visualización de las configuraciones de la expresión génica de las neuronas murine generadas con Scanpy.
© Helmholtz Zentrum München

“Está sobre analizar datos de la expresión génica de un gran número de células individuales,” explica el lobo de Alex del autor importante del instituto de la biología de cómputo (ICB) en Helmholtz Zentrum München. Él desarrolló Scanpy así como su colega Philipp Angerer en el grupo del aprendizaje de máquina del profesor el Dr. Fabian Theis. Además de su posición en Helmholtz Zentrum, Theis es también profesor del modelado matemático de sistemas biológicos en la universidad de Munich técnica. Los “nuevos avances técnicos generan varios órdenes de magnitud más datos con un contenido de información correspondientemente mayor,” Theis dice. “Sin embargo, la infraestructura históricamente desarrollada del software para el análisis de la expresión génica no fue diseñada simple para hacer frente a los nuevos retos. Los nuevos métodos analíticos por lo tanto se necesitan.”

La carrera para el atlas de la célula humana

Según Theis, un proyecto de investigación internacional importante podía también beneficiarse del software. Las personas de científicos internacionales están compilando una base de datos de referencia, llamada el atlas de la célula humana, que lleva a cabo datos sobre la actividad de gen de todos los tipos de la célula humana. “Para este proyecto, y en un número creciente de otros proyectos en los cuales se combinen las bases de datos, es importante tener software escalable,” dice Theis. No es por lo tanto ninguna sorpresa que Scanpy es actualmente un candidato a la ayudar analizar el atlas de la célula humana.

“La publicación de Scanpy marca el primer software que permite el análisis completo de los grupos de datos grandes de la expresión génica con una amplia gama de máquina-aprendizaje y de métodos estadísticos,” explica el lobo, describiendo el logro. “El software está siendo utilizado ya por varios grupos en todo el mundo, notablemente en el instituto amplio de la Universidad de Harvard y de Massachusetts Institute of Technology, MIT.”

Tecnológico, el uso es un revelado pionero: Considerando que los programas de la bioestadística se escriben tradicionalmente en el lenguaje de programación R, Scanpy se basa en el lenguaje del pitón, el lenguaje dominante en la comunidad del aprendizaje de máquina. Otra nueva característica es que los algoritmos gráfico-basados mienten en el corazón de Scanpy. A diferencia de la aproximación usual de mirar las células como los puntos en un sistema coordinado dentro del espacio de la expresión génica, los algoritmos utilizan a gráfico-como sistema coordinado. En vez de caracterizar una célula por el valor de la expresión para los millares de genes, el sistema caracteriza simple las células determinando a sus vecinos más cercanos - mucho como las conexiones en redes sociales. De hecho, determinar tipos de la célula, Scanpy utiliza los mismos algoritmos que Facebook hace para determinar a comunidades.

Fuente: https://www.helmholtz-muenchen.de/en/press-media/press-releases/all-press-releases/press-release/article/44101/index.html