De wetenschappers ontwikkelen software Scanpy om enorme eencellige gegevens te analyseren

De wetenschappers van Helmholtz Zentrum München hebben een programma ontwikkeld dat kan helpen enorme datasets beheren. De software, genoemd Scanpy, is een kandidaat voor het analyseren van de Menselijke Atlas van de Cel, en in de Biologie van het Genoom `' onlangs gepubliceerd.

Visualisatie van de patronen van de genuitdrukking van rattenhersenencellen die met Scanpy worden geproduceerd.
© Helmholtz Zentrum München

„Het is over het analyseren van gen-uitdrukking gegevens van een groot aantal individuele cellen,“ verklaart hoofdauteur Alex Wolf van het Instituut van ComputerBiologie (ICB) in Helmholtz Zentrum München. Hij ontwikkelde Scanpy samen met zijn collega Philipp Angerer in de Lerende Groep van de Machine Prof. Dr. Fabian Theis. Naast zijn positie in Helmholtz Zentrum, is Theis ook een professor van wiskundige modellering van biologische systemen bij de Technische Universiteit van München. De „nieuwe technische vooruitgang produceert verscheidene grootteordes meer gegevens met een navenant grotere informatie-inhoud,“ Theis zegt. „Nochtans, werd de historisch geëvolueerde softwareinfrastructuur voor gen-uitdrukking analyse eenvoudig niet ontworpen om aan de nieuwe uitdagingen het hoofd te bieden. De nieuwe analitische methodes zijn daarom nodig.“

Het ras voor de Menselijke Atlas van de Cel

Volgens Theis, kon een belangrijk internationaal onderzoekproject ook van de software profiteren. Een team van internationale wetenschappers compileert een referentiegegevensbank, genoemd de Menselijke Atlas van de Cel, die gegevens over de genactiviteit van alle menselijke celtypes houdt. „Voor dit project, en in een groeiend aantal andere projecten waarin de gegevensbestanden worden gecombineerd, is het belangrijk om scalable software te hebben,“ zegt Theis. Het is daarom geen verrassing dat Scanpy momenteel een kandidaat voor het helpen om de Menselijke Atlas van de Cel te analyseren is.

De „publicatie van Scanpy merkt de eerste software die uitvoerige analyse van grote gen-uitdrukking datasets met een brede waaier van machine-leert en statistische methodes toestaat,“ verklaart Wolf, beschrijvend de voltooiing. De „software wordt reeds gebruikt door een aantal groepen rond de wereld, in het bijzonder bij het Brede Instituut van de Universiteit van Harvard en Massachusetts Institute of Technology, MIT.“

Technologisch, is de toepassing een trailblazing ontwikkeling: Terwijl de biostatistiekprogramma's traditioneel in de programmeertaal R worden geschreven, is Scanpy gebaseerd op de taal van de Python, de dominante taal in de machine lerende gemeenschap. Een andere nieuwe eigenschap is dat de op grafiek-gebaseerde algoritmen centraal bij Scanpy liggen. In tegenstelling tot de gebruikelijke benadering van het beschouwen van cellen als punten in een gecoördineerd systeem binnen gen-uitdrukking ruimte, gebruiken de algoritmen een grafiek-als gecoördineerd systeem. In plaats van het kenmerken van single cell door de uitdrukkingswaarde voor duizenden genen, kenmerkt het systeem eenvoudig cellen door hun dichtste buren - zeer zoals de verbindingen in sociale netwerken te identificeren. In feite, om celtypes te identificeren, gebruikt Scanpy de zelfde algoritmen aangezien Facebook voor het identificeren van gemeenschappen doet.

Bron: https://www.helmholtz-muenchen.de/en/press-media/press-releases/all-press-releases/press-release/article/44101/index.html