一些研究表明,目前已經(jīng)公布的基因組存在多種污染,隨著這個(gè)問(wèn)題越來(lái)越突出,我們需要找出方法來(lái)應(yīng)對(duì)
Supratim Mukherjee在進(jìn)行數(shù)據(jù)分析的時(shí)候,發(fā)現(xiàn)數(shù)以百計(jì)的微生物基因組中會(huì)重復(fù)出現(xiàn)同一種噬菌體序列,這令他感到很驚訝。這位來(lái)自勞倫斯伯克利國(guó)家實(shí)驗(yàn)室的生物信息學(xué)家開(kāi)始是為了比對(duì)這些微生物的代謝途徑,但后來(lái)他發(fā)現(xiàn)了幾乎無(wú)處不在的序列,“我以為我們發(fā)現(xiàn)了一些新的東西,”他回憶道,“在這些不同的微生物中,這整個(gè)噬菌體基因組是完整地保留下來(lái)的。”
但當(dāng)Mukherjee一開(kāi)始分析這個(gè)噬菌體序列時(shí),他就知道這就是 PhiX 序列,一種Illumina公司測(cè)序試劑盒中用做標(biāo)準(zhǔn)品的噬菌體。PhiX 本來(lái)是作為一種質(zhì)控檢測(cè)指標(biāo),用于追蹤每個(gè)測(cè)序過(guò)程中出現(xiàn)的錯(cuò)誤率的,但在上百個(gè)案例中,Mukherjee發(fā)現(xiàn)研究人員都沒(méi)有從其公布的基因組序列中剔除Phi X的序列。
并不是只有Mukherjee一人發(fā)現(xiàn)此種情況,近大量的報(bào)告表明,發(fā)表的基因組出現(xiàn)污染要不之前想象的多得多。那么這些污染是如何出現(xiàn)的呢?我們有能做些什么,避免這些情況的出現(xiàn)呢?
就此The Scientist雜志請(qǐng)教了幾位研究人員,他們分享了他們的一些Tips,可以檢測(cè)和預(yù)防出現(xiàn)“流-氓序列”。
廣泛的基因污染
在Mukherjee 研究組意識(shí)到 PhiX 污染可能會(huì)出現(xiàn)了多個(gè)公布的微生物基因組中之后,這一研究組覺(jué)得量化其出現(xiàn)頻率。通過(guò)分析調(diào)查,Mukherjee等人發(fā)現(xiàn)在已出版的1.8萬(wàn)個(gè)細(xì)菌和古細(xì)菌基因組(Integrated Microbial Genomes database)中,超過(guò)1000個(gè)序列被PhiX 序列污染。今年Mukherjee等人已經(jīng)將這一發(fā)現(xiàn)公布在Standards in Genomic Sciences上。而這些其中的10%也出現(xiàn)在了同行評(píng)審的期刊雜志中。
PhiX 污染還只是冰山一角——現(xiàn)在問(wèn)題呈指數(shù)級(jí)增長(zhǎng),NCBI總監(jiān)David Lipman說(shuō),他也正在篩選過(guò)去五年間,呈遞到GenBank中的數(shù)據(jù)。
“我們檢測(cè)到2012年細(xì)菌和古細(xì)菌的污染情況還只有2%-3%,” Lipman說(shuō),“但之后就急速攀升,到2014年,已經(jīng)接近了10%。今年到目前為止,這一比率達(dá)到23%”。
Sanger研究所的科學(xué)家們也發(fā)現(xiàn),DNA提取試劑盒、化學(xué)試劑和實(shí)驗(yàn)室環(huán)境中的雜菌很容易造成污染,影響微生物組分析的結(jié)果。
研究人員發(fā)現(xiàn),沒(méi)有污染的話對(duì)照樣本應(yīng)該只有一種菌,但有時(shí)卻出現(xiàn)了270種不同的細(xì)菌。與高生物量的樣本相比(糞便樣本),來(lái)自血液或肺部的低生物量樣本尤其容易受到污染。
“現(xiàn)在的DNA測(cè)序技術(shù)允許人們進(jìn)行深度測(cè)序,被廣泛用于稀少微生物群體的分析。我們發(fā)現(xiàn),這類樣本很容易被其他來(lái)源的DNA污染,要么在收集樣品的時(shí)候,要么在DNA提取和擴(kuò)增過(guò)程中。污染會(huì)對(duì)研究結(jié)果產(chǎn)生很大的影響,這一點(diǎn)需要研究者們給予足夠的重視,”Sanger研究所的Alan Walker博士說(shuō)。
而且微生物也不是唯1出現(xiàn)這么多污染的研究領(lǐng)域,去年倫敦大學(xué)學(xué)院的計(jì)算機(jī)專家William Langdon發(fā)現(xiàn),千人基因組計(jì)劃中至少7%受到了支原體遺傳物質(zhì)的污染(BioData Mining, 7:3, 2014),因此如果說(shuō)你對(duì)污染的基因組感到頭疼的話,放心,你不是唯1一個(gè)。
污染從哪里來(lái)?
來(lái)自圣地亞哥州立大學(xué)的生物信息學(xué)家Rob Edwards說(shuō),污染出現(xiàn)的來(lái)源很多,“首先就是實(shí)驗(yàn)室成員可能混淆了兩個(gè)樣品,不小心給文件或者樣本貼上了錯(cuò)誤的標(biāo)簽。這些都可以通過(guò)加強(qiáng)實(shí)驗(yàn)室管理,提高實(shí)驗(yàn)記錄保存制度等很容易解決。”
另一方面,污染也有可能來(lái)自其它本不應(yīng)該出現(xiàn)在樣品中的外來(lái)遺傳物質(zhì),又或者來(lái)自培養(yǎng)細(xì)菌周圍的環(huán)境,Edwards說(shuō)。即使你認(rèn)為自己測(cè)序的是單一培養(yǎng)產(chǎn)物,但是在一個(gè)測(cè)序循環(huán)中出現(xiàn)多個(gè)物種的情況,并不少見(jiàn)。
此外,如果正在測(cè)序來(lái)自人類腸道的微生物,那么樣品中自然會(huì)出現(xiàn)人體細(xì)胞,還有即使你只想要測(cè)序某個(gè)生物體的細(xì)胞核基因,也會(huì)出現(xiàn)細(xì)胞內(nèi)線粒體和葉綠體基因,這些也都是污染。這些污染當(dāng)然很難*避免,但是可以采取一些措施:在測(cè)序之前清理樣品,或者在測(cè)序結(jié)果中剔除污染的序列。
Edwards的研究組聚焦于來(lái)自環(huán)境樣品的宏基因組測(cè)序,他表示其研究組就常常利用過(guò)濾設(shè)備,根據(jù)大小對(duì)病毒和細(xì)菌混合物進(jìn)行分離。如果他們推測(cè)樣品中存在人體DNA的污染,那么就會(huì)先剔除這些序列,只留下微生物的基因樣本。
同樣如果需要清除系統(tǒng)中的污染,比如PhiX 對(duì)照序列,目標(biāo)基因序列擴(kuò)增測(cè)序用的引物和測(cè)序接頭,還有克隆載體等,也可以采用相類似的方法。
考慮完這些,還有一個(gè)容易忽略的問(wèn)題,那就是設(shè)備機(jī)器在實(shí)驗(yàn)過(guò)程中留下的污染,清楚了解這些污染的來(lái)源,可以幫助研究人員在測(cè)序后選擇方法剔除他們,Edwards說(shuō),如果污染重復(fù)出現(xiàn),那么也許就需要改變方法或調(diào)試機(jī)器了。
然而污染的另一個(gè)來(lái)源是臟之間實(shí)驗(yàn),出血,通過(guò)讓基因由事先測(cè)序運(yùn)行出現(xiàn)在下一次的機(jī)器。愛(ài)德華茲說(shuō),只被察覺(jué)這種污染可能存在于你的實(shí)驗(yàn)可以幫助您選擇將其刪除后測(cè)序的方法。或者,如果它反復(fù)出現(xiàn),您可以嘗試geng改協(xié)議或故障排除您的機(jī)器。
如何檢測(cè)?
毫無(wú)疑問(wèn),在實(shí)驗(yàn)過(guò)程中越早剔除污染物越好,“這些污染會(huì)增加實(shí)驗(yàn)直接的成本,”來(lái)自愛(ài)丁堡大學(xué)的Dominik Laetsch 說(shuō),出現(xiàn)污染,“每分錢理論上你得到的核苷酸信息就越少,”因?yàn)樾枰〞r(shí)間處理和分析不需要的序列。但也有個(gè)好消息——即使序列中充滿了 PhiX、引物、載體和不想要物種的基因,還是能在別人看到你終公布的基因組之前剔除它們。
Laetsch就開(kāi)發(fā)了這樣的一個(gè)工具,幫助數(shù)據(jù)分析之前進(jìn)行序列清除,這個(gè)工具叫Blobtools-light,是目前的-新版本,能將你的contigs(組裝成終序列中的測(cè)序DNA重疊部分)與NCBI數(shù)據(jù)庫(kù)中的已知序列進(jìn)行比對(duì),然后軟件還會(huì)通過(guò)可視化方式來(lái)解釋這種比對(duì)——來(lái)自相似生物物種的序列會(huì)突出來(lái)。
“我們利用這作為初步篩選工具,”Laetsch說(shuō),她正在進(jìn)行病原細(xì)菌的相關(guān)研究。
此外,還有一個(gè)類似的程序:ProDeGe (Protocol for fully automated Decontamination of Genomes,全自動(dòng)凈化基因組協(xié)議)(ISME, doi:10.1038/ismej.2015.100, 2015).
與Blobtools一樣,ProDeGe采用的也是公共數(shù)據(jù)庫(kù),可以檢測(cè)一個(gè)基因組中的污染,然后將contigs分組歸類到“無(wú)污染”組和“污染”組。比價(jià)而言,Blobtools-light可以提供可視化序列圖表,ProDeGe則能幫助研究人員識(shí)別并鑒定污染物是什么。
“這種方法比較簡(jiǎn)單,不用了解太多”,Mukherjee說(shuō),“因此對(duì)于不擅長(zhǎng)此類工具的研究人員來(lái)說(shuō)比較合適。”
當(dāng)然還有其它方法,如NCBI的VecScreen,這是一種可以快速識(shí)別序列中污染載體的方法,晚些時(shí)候NCBI網(wǎng)-站還將公布geng多geng先進(jìn)的工具。
不過(guò)所有用來(lái)檢測(cè)污染物的工具都必須把握住特異性和敏感度之間的平衡,也就是精確識(shí)別出污染物,而不刪除靶標(biāo)序列。因此了解清楚你的整體數(shù)據(jù)就顯得額外重要,比如說(shuō),如果你分析的是新的基因組,那么程序肯定會(huì)提示了污染物水平高,因?yàn)橐延袛?shù)據(jù)庫(kù)并未包含你的序列數(shù)據(jù)。
又或者,如果你知道會(huì)出現(xiàn)高污染細(xì)菌基因組,那么就能列出污染物清單,Edwards說(shuō),“我推薦多運(yùn)行幾個(gè)工具,比對(duì)結(jié)果。”
如何去除污染
一旦找到了污染物和污染源,那么就可以開(kāi)始進(jìn)行數(shù)據(jù)清理了。這其中有多種工具可以選擇,如Edwards研究組開(kāi)發(fā)的DeconSeq,與其它自動(dòng)化污染篩選程序不同,DeconSeq需要用戶輸入污染物的物種屬性,然后再自動(dòng)剔除基因組組裝內(nèi)容里的屬于這一物種的序列。
如果跳過(guò)了這一步驟,也許就會(huì)引起麻煩。Lipman研究組在NCBI系統(tǒng)中就運(yùn)行一個(gè)針對(duì)每個(gè)呈遞到GenBank中序列的外源污染物篩選,他希望當(dāng)篩選出一個(gè)序列標(biāo)記為污染物時(shí),科學(xué)家們能將其認(rèn)為是了解數(shù)據(jù)的一個(gè)機(jī)會(huì),并且了解技術(shù)的弱點(diǎn),在未來(lái)避免出現(xiàn)這個(gè)問(wèn)題。
“如果你只是說(shuō)‘好吧,我的呈遞出現(xiàn)了問(wèn)題,我現(xiàn)在就修改它’,那么這個(gè)問(wèn)題還是不斷出現(xiàn),”Lipman說(shuō)。
但是如果是在論文公布后發(fā)現(xiàn)基因組中出現(xiàn)污染呢?比如說(shuō)之后進(jìn)行g(shù)eng多實(shí)驗(yàn)的時(shí)候發(fā)現(xiàn)了錯(cuò)誤,那么重點(diǎn)是盡早修改錯(cuò)誤,以防其他人將這些錯(cuò)誤的成果用于自己的研究中。在某些情況下,這也許就意味著與雜志取得聯(lián)-系,看看能不能進(jìn)行勘誤。
“大家需要對(duì)自己的序列數(shù)據(jù)負(fù)責(zé),”Mukherjee說(shuō),“如果你發(fā)現(xiàn)了問(wèn)題,那么就要撤回它進(jìn)行修改,然后再重新發(fā)布。”
如何改善基因組污染問(wèn)題
隨著測(cè)序技術(shù)的進(jìn)步,也許未來(lái)許多污染源會(huì)自動(dòng)消失,這確實(shí)可能,Laetsch說(shuō),“隨著組裝過(guò)程越來(lái)越容易,讀長(zhǎng)越來(lái)越長(zhǎng),肯定要找出污染也會(huì)變得容易,”但是研究人員不能將這作為停止篩選污染物的借口,“你放入的樣品越好,測(cè)序機(jī)器就會(huì)做的越好。”
而隨著基因組數(shù)據(jù)變得越來(lái)越龐大,要想獲得干凈的序列也越來(lái)越難,這有賴于每個(gè)學(xué)者都盡其所能確保自己基因組序列不出現(xiàn)污染,“我認(rèn)為科學(xué)界都知道污染物是個(gè)大問(wèn)題,但是這還需要geng多的努力”,Mukherjee說(shuō)。
GenBank中污染物出現(xiàn)頻率猛增,Lipman也贊同這個(gè)問(wèn)題的共識(shí)性,為何會(huì)出現(xiàn)越來(lái)越的污染呢,Lipman對(duì)這個(gè)問(wèn)題表示,“越來(lái)越多的實(shí)驗(yàn)室都可以進(jìn)行測(cè)序研究了,這本身是個(gè)令人高興的事情。”