科學家開發 Scanpy 軟件分析極大單細胞數據

從 Helmholtz Zentrum München 的科學家開發了能幫助管理極大數據集的一個程序。 這個軟件,名為 Scanpy,是分析人類細胞地圖集的一名候選人和最近被發布了在 ` 染色體生物』。

鼠科腦細胞的基因表達模式的形象化生成與 Scanpy。
© Helmholtz Zentrum München

「它是關於分析很大數量各自的細胞基因表達式數據」,在 Helmholtz Zentrum München 解釋主要作者計算生物 (ICB) 學院的亞歷克斯狼。 他與他的同事機器學習組的 Philipp Angerer 一起開發了 Scanpy Fabian Theis 博士教授。 除他的在 Helmholtz Zentrum 的位置之外, Theis 也是數學塑造教授生物系統在慕尼黑工業大學。 「新的技術提升生成幾個數量級與相應地更加巨大的信息含量的多數據」, Theis 說。 「然而,基因表達式分析的歷史上演變的軟件基礎設施未被設計應付新的挑戰。 因此新的分析方法必要」。

人類細胞地圖集的種族

根據 Theis,一個主要國際研究計劃能也受益於這個軟件。 國際科學家小組編譯參考數據庫,稱人類細胞地圖集,暫掛關於所有人類細胞類型的基因活動的數據。 「為此項目和在增加數據庫被結合的其他項目,有可升級的軟件是重要的」, Theis 說。 因此是沒有驚奇 Scanpy 當前是幫助的一名候選人分析人類細胞地圖集。

「Scanpy 的發行指示允許對與各種各樣的設備瞭解和統計方法的大基因表達式數據集的全面分析的第一個軟件」,解釋狼,描述這個成績。 「很多個組環球,值得注意地已經使用這個軟件在哈佛大學和麻省理工學院清楚的學院, MIT」。

技術上,這種應用是領導性的發展: 而生物統計學程序在這種編程語言 R 傳統上被寫, Scanpy 在 Python 語言,在機器學習社區的統治語言基礎上。 另一個新的功能是基於圖形的算法在 Scanpy 中心位於。 不同於看待細胞通常途徑,在坐標系統的點在基因表達式空間內,算法使用像圖形的坐標系統。 而不是分析由表達式值的一個單細胞千位的基因,這個系統通過識別他們最接近的鄰居分析細胞 - 非常像在社會網絡的連接數。 實際上,識別細胞類型, Scanpy 使用和一樣 Facebook 為識別社區執行的算法。

來源: https://www.helmholtz-muenchen.de/en/press-media/press-releases/all-press-releases/press-release/article/44101/index.html