Published on November 21, 2007 at 12:13 PM
使用巨型计算机人类基因组的部分与那些其他哺乳动物比较,研究员在康奈尔发现了大约 300 个以前未认出的人力基因,并且查找了数百个基因扩展名已经已知。
这个发现在的想法基础上,当有机体演变,基因代码部分执行事有用为在不同的方式上的有机体变化。
这个研究由亚当 Siepel,康奈尔助理教授报告生物统计数据和计算生物、康奈尔几个其他机构的博士后布龙娜 Brejova 和同事日记帐染色体研究的在线版本的,并且将看起来于 12月打印编辑。
完全人类基因组排序几年前,但是那意味着命令 30亿余化工部件,称基础,组成这个基因代码知道。 什么保持是所有短的部分或其他功能的确切的地点的确定对蛋白质编码或执行管理。
超过 20,000 个蛋白质编码基因被识别,如此康奈尔摊缴,当重大时,不显著更改已知的基因的数量。 什么是重要的,研究员说,是那里他们的发现显示可能仍然是使用当前生物方法,丢失了的许多基因。 这些方法是非常有效的在查找广泛表示的基因,但是可能错过仅表示用某些组织或在胚胎发展早期的那些, Siepel 说。
“什么是扣人心弦的使用演变识别这些基因”, Siepel 说。 “演变执行百万的此实验几年。 计算机是我们的观察结果的显微镜”。
四个不同基础 -- 通常是指由信函 G、 C、 A 和 T -- 组成脱氧核糖核酸。 三个基础可能对氨基酸 (蛋白质构件) 连续编码,并且这些三信函编码字符串可以是基因,细胞可能制造成蛋白质氨基酸的字符串的编码。
Siepel 和同事下决心查找 “被保存了”的基因 -- 那对所有寿命是根本的,并且那接近如此坚持同样或者,在百万几年演变。
研究员从 “其他工作者”开始了发现的对准线 -- 长期舒展至在两个或多个种类间是主要象的数千个基础。 使用大规模计算机字符串,包括一个 850 节点字符串在先进计算康奈尔中心,研究员运行了三个不同算法或者计算设计 -- 其中之一 Siepel 创建了 -- 比较在人、鼠标、汇率和鸡之间的这些对准线以多种组合。
在百万几年,各自的基础可以被交换 -- 例如 C 到 G, T 到 A, -- 通过故障或 miscopying。 更改修改蛋白质结构可能杀害这个有机体或发送它在一个尽头的演变路径下。 但是被保存的基因包含留下蛋白质能做其工作仅的次要变化。 计算机通过创建然后寻找一个的数学模型寻找与那些类的地区更改这个基因如何也许已经更改了,符合对此设计。
在消灭符合已经已知的基因的预测以后,研究员在实验室里测试了余数,证明,许多基因在人力组织范例可能实际上被找到,并且可能对蛋白质编码。 研究员有时能与已知的蛋白质相比数据库识别蛋白质。 被发现的基因主要和发动机活动、细胞粘着、结缔组织和中央神经系统发展,也许预计是公用的对许多不同的生物的功能有关。
整个项目,从大厦和测试对进行最终实验室试验的数学模型,需要了大约三年, Siepel 说。 这个工作由国家癌症学会、国家科学基金会早期的职业发展格兰特和加州大学毕业生研究同伴关系支持。
http://www.cornell.edu/
26469d65-a234-45c4-b957-d44c2c7f6f5e|0|.0