麻省理工學(xué)院(MIT)和法國巴斯德研究所的科學(xué)家們已經(jīng)開發(fā)出一種在個(gè)人電腦上重建全基因組的技術(shù),包括人類基因組。這項(xiàng)技術(shù)比目前蕞先進(jìn)的方法快約100倍,并使用五分之一的資源。
這項(xiàng)研究發(fā)表在9月14日的《細(xì)胞系統(tǒng)》雜志上,它允許更緊湊地表示基因組數(shù)據(jù),其靈感來自于單詞,而不是字母,為語言模型提供了濃縮的構(gòu)建塊。研究人員表示可以在一臺(tái)普通的筆記本電腦上快速組裝整個(gè)基因組和元基因組,包括微生物基因組。這種能力對于評(píng)估與疾病和細(xì)菌感染(如敗血癥)有關(guān)的腸道微生物組的變化至關(guān)重要,以便能夠更迅速地治療疾病并拯救生命。
自人類基因組計(jì)劃以來,基因組組裝項(xiàng)目已經(jīng)取得了長足的進(jìn)步,該計(jì)劃在2003年完成了第壹個(gè)完整人類基因組的組裝,耗資約27億美元,經(jīng)過十多年的國際合作。但是,盡管人類基因組組裝項(xiàng)目不再需要幾年的時(shí)間,它們?nèi)匀恍枰獛滋斓臅r(shí)間和大量的計(jì)算機(jī)能力。第三代測序技術(shù)提供了數(shù)萬個(gè)堿基對的高質(zhì)量基因組序列,然而使用如此巨大數(shù)量的數(shù)據(jù)進(jìn)行基因組組裝已被證明具有挑戰(zhàn)性。
為了比目前的技術(shù)更有效地進(jìn)行基因組組裝,包括在所有可能的讀數(shù)對之間進(jìn)行配對比較,研究人員轉(zhuǎn)向了語言模型。根據(jù)德布魯恩圖的概念(一種用于基因組組裝的簡單、高效的數(shù)據(jù)結(jié)構(gòu)),研究人員開發(fā)了一個(gè)蕞小化空間德布魯恩圖(mdBG),它使用稱為蕞小化器的核苷酸短序列,而不是單核苷酸。
研究人員開發(fā)的蕞小化器空間德布魯恩圖只存儲(chǔ)了總核苷酸的一小部分,同時(shí)保留了整體的基因組結(jié)構(gòu),使它們的效率比經(jīng)典德布魯恩圖高幾個(gè)數(shù)量級(jí)。研究人員將他們的方法應(yīng)用于組裝黑腹果蠅的真正HiFi數(shù)據(jù)(它具有幾乎完美的單分子讀取精度),以及太平洋生物科學(xué)公司(PacBio)提供的人類基因組數(shù)據(jù)。
當(dāng)他們評(píng)估所得到的基因組時(shí),Berger及其同事發(fā)現(xiàn)使用mdBG軟件所需的時(shí)間比其他基因組組裝程序少33倍,內(nèi)存用量少8倍。他們的軟件對HiFi人類數(shù)據(jù)進(jìn)行基因組組裝的速度比Peregrine組裝器快81倍,內(nèi)存用量少18倍,比hifiasm組裝器快338倍,內(nèi)存用量少19倍。