將海量基因測序數(shù)據(jù)片段拼接成完整的基因組序列,即基因組組裝,是擺在基因組學(xué)領(lǐng)域科學(xué)家面前的難題。而對于擁有多套相似染色體的多倍體生物來說,這項(xiàng)工作更是難上加難。
“多倍體基因組組裝是從眾多混亂的片段中挑出相關(guān)片段,并精確地拼出幾個(gè)類似的基因組序列,難度可想而知!闭撐墓餐谝蛔髡摺⑸钲谌A大生命科學(xué)研究院科學(xué)計(jì)算平臺負(fù)責(zé)人黃俊翰介紹,“尤其是在處理復(fù)雜的基因區(qū)域時(shí),傳統(tǒng)的計(jì)算方法往往難以勝任這項(xiàng)工作!
針對上述挑戰(zhàn),深圳華大生命科學(xué)研究院的研究團(tuán)隊(duì)開發(fā)了利用量子計(jì)算技術(shù)求解單體型組裝問題的新工具——VRP assembler。相關(guān)論文發(fā)表于《細(xì)胞報(bào)告方法》。
黃俊翰介紹,未來,在成熟的量子計(jì)算技術(shù)支撐下,研究人員能夠更快速地實(shí)現(xiàn)高質(zhì)量的單體型組裝。
經(jīng)過研究分析,研究人員首先找到針對單體型組裝問題的高效建模方式,提出了能夠應(yīng)用于單倍體、二倍體和多倍體基因組組裝的數(shù)學(xué)模型,并在人類主要組織相容性復(fù)合體(MHC)區(qū)域得到了高精度單體型組裝結(jié)果。這一結(jié)果展現(xiàn)了量子計(jì)算在未來生命科學(xué)研究中的巨大潛力,即可為精準(zhǔn)醫(yī)療、生物多樣性和進(jìn)化研究提供更豐富的信息。
“量子計(jì)算就像是擁有無數(shù)個(gè)同時(shí)工作的‘大腦’,可以快速探索各種可能的方式,找到最佳的解決方案!秉S俊翰表示,“這使得VRP assembler能夠在極短的時(shí)間內(nèi)完成傳統(tǒng)方法需要耗費(fèi)大量時(shí)間才能完成的任務(wù)。”
黃俊翰介紹,為驗(yàn)證新工具的效果,研究團(tuán)隊(duì)對模擬的二倍體和三倍體基因組進(jìn)行了小規(guī)模單體型組裝。結(jié)果顯示,VRP assembler的耗時(shí)比傳統(tǒng)優(yōu)化算法減少了3個(gè)數(shù)量級。
為進(jìn)一步測試模型的準(zhǔn)確性,研究團(tuán)隊(duì)使用VRP assembler對人類MHC區(qū)域約500萬堿基對長度的兩條序列進(jìn)行了單體型組裝。結(jié)果顯示,錯(cuò)配率降低到接近理論極限,這對于識別遺傳變異、理解它們?nèi)绾斡绊懡】稻哂兄匾饬x。
事實(shí)上,VRP assembler僅僅是研究人員將量子計(jì)算技術(shù)運(yùn)用到生命科學(xué)研究的一小步。當(dāng)前,量子計(jì)算技術(shù)與生命科學(xué)正迎來深度融合的新契機(jī)。
論文共同第一作者、深圳華大生命科學(xué)研究院量子算法工程師陳一博介紹,量子計(jì)算作為一種全新的計(jì)算模式,有望突破后摩爾時(shí)代的算力限制,為生物學(xué)數(shù)據(jù)的維數(shù)災(zāi)難問題提供創(chuàng)新性解決方案。展望未來,陳一博認(rèn)為,量子計(jì)算技術(shù)將賦能生物信息處理、疾病機(jī)理探索以及新藥開發(fā)等多個(gè)關(guān)鍵領(lǐng)域,推動(dòng)生命科學(xué)研究。
“量子算法可以高效處理高維生物信息數(shù)據(jù),幫助研究人員更快速地識別疾病相關(guān)基因、理解復(fù)雜疾病的分子機(jī)制,并為精準(zhǔn)醫(yī)療提供支持!标愐徊┱f。
其中,在生物系統(tǒng)研究應(yīng)用中,量子計(jì)算能夠以前所未有的精度和規(guī)模模擬生物分子和細(xì)胞內(nèi)部的量子行為,幫助研究人員更深入地理解光合作用等生物過程中的量子效應(yīng),推動(dòng)生物學(xué)底層機(jī)制的研究。
而在生物檢測應(yīng)用中,量子精密測量技術(shù)可以提供傳統(tǒng)手段無法企及的測量精度,在生物標(biāo)志物檢測和疾病早期診斷中具有重要價(jià)值。
同時(shí),量子傳感器的應(yīng)用有望實(shí)現(xiàn)更為精確和靈敏的醫(yī)療檢測,提高疾病診斷的準(zhǔn)確性。
“隨著量子計(jì)算硬件和量子算法的持續(xù)突破,量子計(jì)算技術(shù)將為基因組學(xué)乃至整個(gè)生命科學(xué)領(lǐng)域帶來深遠(yuǎn)影響!标愐徊┱f。