Published on November 21, 2007 at 12:13 PM
使用巨型計算機人類基因組的部分與那些其他哺乳動物比較,研究員在康奈爾發現了大約 300 個以前未認出的人力基因,并且查找了數百個基因擴展名已經已知。
這個發現在的想法基礎上,當有機體演變,基因代碼部分執行事有用為在不同的方式上的有機體變化。
這個研究由亞當 Siepel,康奈爾助理教授報告生物統計數據和計算生物、康奈爾幾個其他機構的博士後布龍娜 Brejova 和同事日記帳染色體研究的在線版本的,并且將看起來於 12月打印編輯。
完全人類基因組排序幾年前,但是那意味著命令 30億餘化工部件,稱基礎,組成這個基因代碼知道。 什麼保持是所有短的部分或其他功能的確切的地點的確定對蛋白質編碼或執行管理。
超過 20,000 個蛋白質編碼基因被識別,如此康奈爾攤繳,當重大時,不顯著更改已知的基因的數量。 什麼是重要的,研究員說,是那裡他們的發現顯示可能仍然是使用當前生物方法,丟失了的許多基因。 這些方法是非常有效的在查找廣泛表示的基因,但是可能錯過仅表示用某些組織或在胚胎發展早期的那些, Siepel 說。
「什麼是扣人心弦的使用演變識別這些基因」, Siepel 說。 「演變執行百萬的此實驗幾年。 計算機是我們的觀察結果的顯微鏡」。
四個不同基礎 -- 通常是指由信函 G、 C、 A 和 T -- 組成脫氧核糖核酸。 三個基礎可能對氨基酸 (蛋白質構件) 連續編碼,并且這些三信函編碼字符串可以是基因,細胞可能製造成蛋白質氨基酸的字符串的編碼。
Siepel 和同事下決心查找 「被保存了」的基因 -- 那對所有壽命是根本的,并且那接近如此堅持同樣或者,在百萬幾年演變。
研究員從 「其他工作者」開始了發現的對準線 -- 長期舒展至在兩個或多個種類間是主要像的數千個基礎。 使用大規模計算機字符串,包括一個 850 節點字符串在先進計算康奈爾中心,研究員運行了三個不同算法或者計算設計 -- 其中之一 Siepel 創建了 -- 比較在人、鼠標、匯率和雞之間的這些對準線以多種組合。
在百萬幾年,各自的基礎可以被交換 -- 例如 C 到 G, T 到 A, -- 通過故障或 miscopying。 更改修改蛋白質結構可能殺害這個有機體或發送它在一個盡頭的演變路徑下。 但是被保存的基因包含留下蛋白質能做其工作仅的次要變化。 計算機通過創建然後尋找一個的數學模型尋找與那些類的地區更改這個基因如何也許已经更改了,符合對此設計。
在消滅符合已經已知的基因的預測以後,研究員在實驗室裡測試了餘數,證明,許多基因在人力組織範例可能實際上被找到,并且可能對蛋白質編碼。 研究員有時能與已知的蛋白質相比數據庫識別蛋白質。 被發現的基因主要和發動機活動、細胞粘著、結締組織和中央神經系統發展,也許預計是公用的對許多不同的生物的功能有關。
整個項目,從大廈和測試對進行最終實驗室試驗的數學模型,需要了大約三年, Siepel 說。 這個工作由國家癌症學會、國家科學基金會早期的職業發展格蘭特和加州大學畢業生研究同伴關係支持。
http://www.cornell.edu/
26469d65-a234-45c4-b957-d44c2c7f6f5e|0|.0