映射至基因組(mapping)

映射至基因組(mapping)

ID:9045376

大?。?26.99 KB

頁數(shù):5頁

時間:2018-04-15

映射至基因組(mapping)_第1頁
映射至基因組(mapping)_第2頁
映射至基因組(mapping)_第3頁
映射至基因組(mapping)_第4頁
映射至基因組(mapping)_第5頁
資源描述:

《映射至基因組(mapping)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、映射至基因組(Mapping)第一步的工作是比對(alignment)。對于RNA-seq的比對,從來都不是一件容易的事情。其難點(diǎn)如下:1.沒有很好的比對模板?,F(xiàn)在的比對模板都是基因組模板,而不是真正的轉(zhuǎn)錄組模板,也就是說,這對本來就不是很長的短序來說,它很有可能是界于兩個exon之間。我們在比對junction的時候,一般還是假設(shè)它如果沒能在基因組模板中找到合適的位置的時候,才考慮它是否是界于junction上。這種人為的假設(shè)可能并不準(zhǔn)確。2.SNPs,堿基插入,刪除,錯配,或者質(zhì)量不高的測序結(jié)果,從模板至比對序列本身,都存在著比基因比對更為復(fù)雜的問題。3.

2、短序可能會有多個100%的匹配位點(diǎn)。4.有些基因組可能需要龐大的內(nèi)存空間。為了解決最后一個問題,人們使用了很多辦法,但基本上都會基于事先建立的引索庫。即所謂“啟發(fā)式”比對(heuristicmatch)。首先使用一定長度的(通常是11個堿基)的序列做為索引用的關(guān)鍵字,在匹配這一索引字之后,就很大程度地縮小了其需要匹配的模板范圍。但是這一辦法的問題在于不容易解決問題2中的空格,錯配問題。所以在很多軟件使用時,會要求人工確認(rèn)高保真區(qū),以及最高允許2?3個錯配。現(xiàn)在比較快的“啟發(fā)式”比對主要有兩種算法,一種是哈希表(hashtable),一種是BW壓縮轉(zhuǎn)換(Burr

3、owsWheelertransform,BWT)。前者速度快,但是對內(nèi)存要求比后者要高。對于問題3,一般而言,大部分軟件使用的辦法是只保留一個匹配位點(diǎn),其中,有些是只保留第一個匹配位點(diǎn),有些是按照概率分布選取保留的位點(diǎn)。當(dāng)然,前面已經(jīng)提到過,可以使用paired-endread來盡量避免問題3的出現(xiàn)。對于問題1,可以使用外顯子庫來確定junctionreads。有兩種辦法,一種是依靠已知的外顯子庫來構(gòu)建,另一種辦法就是依據(jù)已經(jīng)匹配好的短序來構(gòu)建外顯子庫(denovoassemblyoftranscriptome)。后者的不足是運(yùn)算量大,對測序覆蓋范圍要求高,最

4、好是使用paired-endreads。還有人發(fā)現(xiàn),對于ploy(A)的處理會減少不能映身的短序數(shù)。比如,Pickrelletal.就發(fā)現(xiàn),對于46bp的Illuminareads,87%的短序可以映射至模板,7%可以映射至junctionlibrary。如果對那些不能映射的短序,將在頭或者尾含有的超過連續(xù)4個的A或者T去除,就可以得到約0.005%的映射。綜合評價(Summarizingmappedreads)這一步,主要是基本于不同水平(外顯子水平,轉(zhuǎn)錄水平,或者基因水平)進(jìn)行統(tǒng)計。最簡單的辦法就是統(tǒng)計落在每個外顯上的短序數(shù)。但是有研究表明,很多(可能超過

5、15%)的短序會落在外顯子兩側(cè),這會影響統(tǒng)計的結(jié)果。另一種辦法就是統(tǒng)會落在內(nèi)顯子區(qū)域的短序數(shù)。無論如何,即使是基因水平的綜合評價,也還是有其它的一些問題。比如overlapping的基因的統(tǒng)計。比如junction的統(tǒng)計。標(biāo)準(zhǔn)化(Normalization)標(biāo)準(zhǔn)化對于樣品內(nèi)及樣品間的比較而言是非常重要的。標(biāo)準(zhǔn)化被分為兩類,樣品內(nèi)及樣品間(between-andwithin-library)。樣品內(nèi)標(biāo)準(zhǔn)化使得在同一樣品內(nèi)不得基因之間的表達(dá)差異變得有意義。最常用到的一個辦法就是使用落在同一基因內(nèi)的短序數(shù)除以單位基因長度。比較常用的單位是RPKM(readsperk

6、ilobaseofexonmodelpermillionmappedreads)。但是這一方法也受到樣品制備和測序方法的干擾。而對于樣品間標(biāo)準(zhǔn)化,最簡單而直接的辦法使用短序總數(shù)來平衡表達(dá)量。然而短序總數(shù)受測序深度的干擾,而且單個基因的短序數(shù)與實(shí)際的表達(dá)量并不一定會呈線性比較關(guān)系。人們又使用四分位(quantilenormlization)標(biāo)準(zhǔn)化的辦法。但是有研究說這一辦法并沒有實(shí)際的價值。還有提出使用對數(shù)分布法則(powerlawdistributions)來進(jìn)行樣品間標(biāo)準(zhǔn)化。但沒有研究對這一處理方式進(jìn)行驗(yàn)證。差異表達(dá)(Differentialexpressi

7、on)差異表達(dá)分析的最終目的是將那些差異表達(dá)的基因(外顯子等等)從海量數(shù)據(jù)中提取出來。最終的結(jié)果顯示一般來說是表格化的,這一表格按照一定的規(guī)則排序,讓人們能夠盡可能簡單地拿到想要的結(jié)果。由于RNA-seq結(jié)果的離散性,人們一般都會使用統(tǒng)計模型來擬合實(shí)驗(yàn)得到的結(jié)果。一般而言,RNA-seq的結(jié)果是比較附合伯松分布(poissondistribution)的。這一結(jié)果得到了單通道IlluminaGA測序結(jié)果的實(shí)驗(yàn)驗(yàn)證。但是,伯松分布分析結(jié)果常常在多組重復(fù)的樣品間帶來較高的假陽性,因?yàn)樗凸懒松锶拥臉悠烽g誤差。所以RNA-seq如何設(shè)置重復(fù)是一個很重要的問題。為

8、了平衡重復(fù)樣品所帶來的誤差,人們使用了

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。