chip-seq數(shù)據(jù)分析中相關(guān)技術(shù)和軟件分析比較

chip-seq數(shù)據(jù)分析中相關(guān)技術(shù)和軟件分析比較

ID:43588407

大小:57.00 KB

頁數(shù):6頁

時間:2019-10-11

chip-seq數(shù)據(jù)分析中相關(guān)技術(shù)和軟件分析比較_第1頁
chip-seq數(shù)據(jù)分析中相關(guān)技術(shù)和軟件分析比較_第2頁
chip-seq數(shù)據(jù)分析中相關(guān)技術(shù)和軟件分析比較_第3頁
chip-seq數(shù)據(jù)分析中相關(guān)技術(shù)和軟件分析比較_第4頁
chip-seq數(shù)據(jù)分析中相關(guān)技術(shù)和軟件分析比較_第5頁
資源描述:

《chip-seq數(shù)據(jù)分析中相關(guān)技術(shù)和軟件分析比較》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫

1、今天接著看paper,突然想把以前的ChlP-Seq工作總結(jié)一下。ChlP-Seq前期或者基本的dataanalysis主要分兩部分一是readsalignment,因為測序得到的read序列并不知道其在對應(yīng)genome上的位置,也就是說不知道測序iT)來的read定位在genome±的什么地方,因此,首先得用alignmenttool把這些readmap到基因組上。那是不是一般blast軟件都可以完成了?答案是否定的。read數(shù)目非常多,都是按照million數(shù)量級計算,并且長度短,一般為20?3Obp左右,一般的blas

2、t軟件遇到短序列,無法使用,像苦名的blasto我曾經(jīng)試過,在我們實驗室口己的服務(wù)器上用blat(這個可以blast短序列)mapread,消耗時間很長,最后我無法忍受停掉了,這里我不太記得我花了多少天。述有兒個問題,就是blast的吋候是否允許錯配的問題。我曾經(jīng)在畢業(yè)答辯的時候被問到這個問題,為什么在blast的時候耍允許錯配?雖然問題很白癡,但是還是值得仔細(xì)思考。首先,我們使用的genomesequecne木身就是測序得到的,這些sequence木身就可能含有測序錯謀。另外,ChIP-Seq實驗小使用的樣本,其seque

3、nce可能有差異,比如SNP,也就是說個體和個體直接的sequenceinformation是有差界的,并不是100%相同。還有,可能是比較重耍的一點,就是ChlP-Seq實驗在sequence過程中,可能有錯誤。我曾經(jīng)問過做ChlP-Seq實驗的人(他們自己sequence序列,不是公司sequence),ChlP-Seq實驗過程屮哪些因素會導(dǎo)致sequence錯謀?其實,世界上現(xiàn)在對于ChlP-Seq原理并不是100%了解,尤其是ChlP-Seq實驗過程中出現(xiàn)的各種奇怪現(xiàn)象的原因,人們只能在后續(xù)分析中盡量減少這些因素的影

4、響。那么,允許兒個錯配比較合適呢?目前已發(fā)表的paper±來看,都是允許2個mism珀ch。但是,沒有哪一篇解釋為什么是2,而不是3,4或其它。我想,可能是第一篇ChlP-Seqpaper使用的是2,于是后面的人都紛紛使用2mismatcho那如果read長度不同了?都使用2mismatch嗎?這個問題值得仔細(xì)思考一下。另外,在map的過程中,只保留unique的read。為什么這樣呢?因為一個read如果能map到多個位點,我們就不知道這個read信號到底是屬于哪個位置?比如對于研究TF問題,我們就不知道這個TF到底是bi

5、nding哪個位點。因此對于這樣的read應(yīng)該去掉。但是,這樣去掉后,會損失很多read,我的經(jīng)驗是20?30%,這個也得看具體數(shù)據(jù)。最近我也在思考,能否訃這樣的read發(fā)揮它們的余熱。下血說說,目前能做readalignment的比較好用的幾個tool1.ELAND這個當(dāng)仁不讓是這方而的老大哥啦,它是Illumina公司口己開發(fā)的一個軟件,速度非???,精度也很高,這個軟件我使用過,把3m訂lion左右的readmap到humangenome上人概只要2小時左右,并且對內(nèi)存要求很小(這個我后面會談到)。唯一缺點就是就是和so

6、lexa測序儀捆綁銷售,我想沒人會發(fā)瘋到,為了用ELAND而去買臺solexa測序儀吧?這個軟件低版本最長只支持到32bp的read,新版本ELAND解決了這個問題。2.SOAP這個是ELAND很好的替代品,而且是中國人寫的,其中還有一個小孩,是北大的,很NB。平時不管我問他什么問題,他都或多或少懂一些,并H.能跟我講的很清楚。這個軟件速度也比較快,但是比ELAND慢,前面同樣的數(shù)據(jù),SOAP人概需要1天對一點時間才能完成。這個軟件很要命的一點就是,對內(nèi)存要求很高。因為它是把基因組信息讀到內(nèi)存中建索引,大概是genomefi

7、le大小的4倍!如果要做human的map,至少需耍32G內(nèi)存,一般小型服務(wù)器是無法滿足的。這個軟件有個參數(shù)很有意思,大致就是,考慮到測序過程中,對于一個read測得序列越長那么出錯的概率就會越人,于是在map過程中,就依次截掉一個3'堿基,然后再map,直到序列太短。當(dāng)然這里面具體的參數(shù)可以設(shè)置。此外,SOAP在map過程中允許gap,這是ELAND做不到的。如我前而所談到的,我很想弄清楚,這些sequencingerror來源是什么,但是冃前述不知道。具體可以看Li,R.,Li,Y.,Kristiansen,K?Wang

8、,J.SOAP:shortoligonucleotidealignmentprogram.Bioinformatics24,713?714(2008).1.Maq這個也是中國人寫的,這個人似乎現(xiàn)在在英國。我不太喜歡用這個軟件,因為它用一個mapquality參數(shù)去衡量map的結(jié)果,如果我想

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。