這個人類遺傳多樣性的新家譜網絡,以前所未有的細節(jié)揭示了世界各地的個體如何相互關聯(lián)。該研究預測了人類共同的祖先,包括他們大致居住的時間和地點,并分析恢復了人類進化史上走出非洲等重大事件。研究的基本方法可能在醫(yī)學研究中得到廣泛應用,例如識別疾病風險的遺傳預測因子。
追蹤人類遺傳多樣性的起源,以生成世界各地個體如何相互關聯(lián)的完整圖譜,這一愿景的主要挑戰(zhàn)是找到一種方法來組合來自許多不同數據庫的基因組序列,并開發(fā)算法來處理這種規(guī)模的數據。牛津大學大數據研究所研究人員此次發(fā)布的新方法可輕松地組合來自多個來源的數據并進行擴展,以適應數百萬個基因組序列。
大數據研究所進化遺傳學家、論文主要作者之一黃燕博士解釋說:“我們基本上已建立了一個巨型家譜,這是一個全人類的家譜,它盡可能準確地模擬了產生所有人類的歷史。我們今天在人類身上發(fā)現的遺傳變異,這個家譜使我們能夠看到每個人的基因序列是如何沿著基因組的所有點相互關聯(lián)的!
由于單個基因組區(qū)域僅從父母一方遺傳,無論是母親還是父親,基因組上每個點的祖先都可被認為是一棵樹。這組樹被稱為“樹序列”或“祖先重組圖”,將遺傳區(qū)域通過時間與首次出現遺傳變異的祖先聯(lián)系起來。
研究人員稱:“從本質上講,我們正在重建我們祖先的基因組和使用它們來形成龐大的關系網絡。然后我們可估計這些祖先生活的時間和地點。這個方法的強大之處在于它對基礎數據的假設很少,并且還可包括現代和古代DNA樣本。”
該研究整合了來自8個不同數據庫的現代和古代人類基因組數據,包括來自215個人群的總共3609個個體基因組序列。古代基因組包括在世界各地發(fā)現的年齡從1000到100000歲不等的樣本。算法預測了進化樹中必須存在共同祖先的位置,以解釋遺傳變異的模式。由此產生的網絡包含近2700萬個祖先。
在這些樣本基因組上添加位置數據后,研究人員使用該網絡來估計預測的共同祖先居住的地方。結果成功地重現了人類進化史上的關鍵事件,包括走出非洲。
研究小組計劃通過繼續(xù)整合可用的遺傳數據,使家譜圖更加全面。由于樹序列以高效的方式存儲數據,因此數據集可輕松容納數百萬個額外的基因組。