Os cientistas desenvolvem o software de Scanpy para analisar dados enormes da único-pilha

Os cientistas do Helmholtz Zentrum München desenvolveram um programa que pudesse ajudar a controlar conjunto de dados enormes. O software, nomeado Scanpy, é um candidato para analisar o atlas da pilha humana, e tem sido publicado recentemente na biologia do genoma do `'.

Visualização de testes padrões da expressão genética dos neurónios murine gerados com Scanpy.
© Helmholtz Zentrum München

“É sobre a análise de dados da expressão genética de um grande número pilhas individuais,” explica o lobo de Alex do autor principal do instituto da biologia computacional (ICB) em Helmholtz Zentrum München. Desenvolveu Scanpy junto com seu colega Philipp Angerer no grupo da aprendizagem de máquina de prof. Dr. Fabian Theis. Além do que sua posição em Helmholtz Zentrum, Theis é igualmente um professor da modelagem matemática de sistemas biológicos na universidade de Munich técnica. “Os avanços técnicos novos geram diversos ordens de grandeza mais dados com um índice de informação correspondentemente maior,” Theis diz. “Contudo, a infra-estrutura historicamente evoluída do software para a análise da expressão genética não foi projectada simplesmente lidar com os desafios novos. Os métodos analíticos novos são conseqüentemente necessários.”

A raça para o atlas da pilha humana

De acordo com Theis, um projecto de investigação internacional principal podia igualmente tirar proveito do software. Uma equipe de cientistas internacionais está compilando uma base de dados de referência, chamada o atlas da pilha humana, que guardara dados na actividade de gene de todos os tipos da pilha humana. “Para este projecto, e em um número crescente de outros projectos em que as bases de dados são combinadas, é importante ter o software evolutivo,” diz Theis. Não é conseqüentemente nenhuma surpresa que Scanpy é actualmente um candidato para que ajudar analise o atlas da pilha humana.

“A publicação de Scanpy marca o primeiro software que permite a análise detalhada de grandes conjunto de dados da expressão genética com uma escala larga da máquina-aprendizagem e de métodos estatísticos,” explica o lobo, descrevendo a realização. “O software está sendo usado já por um número de grupos em todo o mundo, notàvel no instituto largo da Universidade de Harvard e de Massachusetts Institute of Technology, MIT.”

Tecnològica, a aplicação é uma revelação trailblazing: Considerando que os programas da bioestatística são escritos tradicional na linguagem de programação R, Scanpy é baseado na língua do pitão, a língua dominante na comunidade da aprendizagem de máquina. Uma outra característica nova é que os algoritmos gráfico-baseados se encontram no centro de Scanpy. Ao contrário da aproximação usual de considerar pilhas como os pontos em um sistema coordenado dentro do espaço da expressão genética, os algoritmos usam a gráfico-como o sistema coordenado. Em vez de caracterizar uma única pilha pelo valor da expressão para milhares de genes, o sistema caracteriza simplesmente pilhas identificando seus vizinhos mais próximos - muito como as conexões em redes sociais. De facto, para identificar tipos da pilha, Scanpy usa os mesmos algoritmos que Facebook faz identificando as comunidades.