科学者は巨大な単一セルデータを分析するために Scanpy のソフトウェアを開発します

Helmholtz Zentrum München からの科学者は巨大なデータ・セットの管理を助けられるプログラムを開発しました。 Scanpy と指名されるソフトウェアはヒト細胞の地図書を分析するための候補者で、 ` のゲノムの生物学で最近」出版されてしまいました。

Scanpy と生成されるネズミ科の脳細胞の遺伝子発現パターンの視覚化。
© Helmholtz Zentrum München

「それは多数の個々のセルの遺伝子表現データの分析について Helmholtz Zentrum München で」、説明します計算の生物学 (ICB) の協会の主執筆者アレックスのオオカミをあります。 彼は教授先生の Fabian Theis 機械学習のグループの彼の同僚 Philipp Angerer とともに Scanpy を開発しました。 Helmholtz Zentrum の彼の職に加えて、 Theis はまたミュンヘン工科大学に生物系の数学模倣の教授です。 「新しい技術の進歩複数の一桁を相応じてより大きい情報量とのより多くのデータ生成します」はと Theis は言います。 「しかし、遺伝子表現の分析のための歴史的に展開させたソフトウェアの下部組織は新しい挑戦に対処するように単に設計されていませんでした。 従って新しく分析的な方法は必要とされます」。

ヒト細胞の地図書のための競争

Theis に従って、主要な国際的な研究計画はまたソフトウェアから寄与できます。 国際的な科学者のチームはすべてのヒト細胞のタイプの遺伝子作業のデータを保持するヒト細胞の地図書と呼出される参照データベースをコンパイルしています。 「このプロジェクトのために、そして増加するにデータベースが結合される他のプロジェクト、スケーラブルソフトウェアを持っていることは重要です」 Theis を言います。 従ってそれは Scanpy が現在ヒト細胞の地図書の分析を助力のための候補者であるという驚きではないです。

「Scanpy の出版物機械学習および統計的な方法の広い範囲との大きい遺伝子表現のデータ・セットの包括的な分析を可能にする最初のソフトウェアを」、は説明します達成を記述しているオオカミを示します。 「ソフトウェアハーバード大学およびマサチューセッツ工科大学の広い協会で世界中の何人かのグループ既に使用されています、特に、 MIT」。は

技術的に、アプリケーションは先駆的な開発です: 生物統計学プログラムがプログラミング言語 R で従来書かれる一方、 Scanpy は大蛇の言語、機械学習のコミュニティの支配的な言語に基づいています。 もう一つの新しい機能はグラフベースのアルゴリズムが Scanpy の中心にあることです。 セルを見なすことの通常のアプローチとは違って遺伝子表現スペース内の座標系のポイントが、アルゴリズムグラフそっくりの座標系を使用するように。 たくさんの遺伝子のための表現値による単一セルを特徴付けるかわりに、システムは社会的なネットワークの接続のような最も近い隣人の - 非常に識別によってセルを単に特徴付けます。 実際は、セルタイプを識別するために、 Scanpy は Facebook がコミュニティを識別するためにするのと同じアルゴリズムを使用します。

ソース: https://www.helmholtz-muenchen.de/en/press-media/press-releases/all-press-releases/press-release/article/44101/index.html