Published on July 11, 2012 at 12:52 AM
在 2001年,人类染色体项目和 Celera 染色体组的宣布在 10 年在一费用的工作以后的差不多 $400 百万,他们完成了人类基因组的一个草稿顺序。 今天,排序人类基因组是一位唯一研究员能在两三周执行少于 $10,000 的事。
自 2002年以来,染色体可以排序的费率加倍每四个月或如此,而计算能力加倍仅每 18 个月。 没有新的分析工具出现,生物学家的能力生成基因组数据很快将超过他们的能力执行任何东西有用与它。
在本质生物工艺学的最新的问题, MIT 和哈佛大学研究员描述激烈地减少时间它在染色体数据库中采取查找一个特殊基因顺序的一个新的算法。 而且,越多染色体它搜索,越极大加速它买得起,因此其好处只将配制,更多数据被生成。
在若干意义,这是数据压缩算法 - 象允许计算机用户压缩数据文件到更小的压缩文件的那个。 “您有所有此数据,并且明显地,如果您要存储它,什么人员自然会执行是压缩它”,健美的 Berger 说,应用数学教授和计算机科学在 MIT 和本文的高级作者。 “这个问题是您必须最终查看它,因此您必须解压它查看它。 但是我们的答案是,如果您压缩数据用正确的方式,然后您能执行您的分析直接地在压缩数据。 并且该增加这张速度,当维护分析时的准确性”。
利用冗余
研究员的压缩模式利用这个情况演变是心狠与好设计。 有在密切相关的种类染色体的很多重叠,并且一些甚而在遥远地相关种类染色体重叠: 所以在酵母细胞执行的实验可能告诉我们某事关于人力药物回应。
Berger; 她的前研究生迈克尔 Baym PhD ‘09,现在是 MIT 算术部门和一 postdoc 的一名访问学者在系统生物学在哈佛医学院; 并且她的当前研究生 Po Ru Loh 开发了一个方式数学上表示另外种类染色体 - 或的在种类内的不同的单个 - 这样只一次存储这个重叠的数据。 多个染色体搜索可能因而集中他们的区别,节省时间。
“如果我要运行在我的染色体的一个计算,需要一定数量的时间”, Baym 解释。 “如果我然后要运行在您的染色体的同一个计算,这个情况我们是很类似的意味着我已经完成了大多数这个工作”。
在 36 酵母染色体数据库的实验,研究员比较了他们的算法到称 BLAST 的一个,基本的局部对准线搜索工具的,其中一个在生物的最常用的基因组搜索算法。 在搜索一个特殊基因顺序在只 10 酵母染色体中,新的算法快速地两次是象疾风; 但是在所有 36 条染色体搜索,一样快速地是四时间。 差异只将增加,当基因组数据库增长更大, Berger 解释。
做媒
新的算法是有用的在这个主要问题的所有应用,正如 Baym 所说: “我有一个顺序; 什么是它类似于?” 识别微生物是一个示例。 新的算法可能帮助临床工作者确定传染的原因,或者它可能帮助生物学家分析 “microbiomes”,在动物组织中找到的微生物的收集或特殊小环境; 在人力 microbiome 上的变化在健康状况的范围被牵连了。 它可能用于分析微生物特殊肥沃或瘠薄土壤,并且可能甚而用于辩论术,确定物证的地理始发地由其微生物签名。
Berger 的组当前运作对关于蛋白质和核糖核酸顺序的信息扩大这个技术,它可能付更大的股息。 即然人类基因组被映射了,在生物的主要问题是什么基因是活跃的,当时,并且蛋白质他们如何对交互选择编码。 生物信息大数据库搜索对回答两个问题是关键的。
来源: 麻省理工学院
5f567f29-a03d-4c57-963b-bbd89397fdd1|0|.0