資源描述:
《chip-seq數(shù)據(jù)分析中相關(guān)技術(shù)和軟件分析比較》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、今天接著看paper,突然想把以前的ChlP-Seq工作總結(jié)一下。ChlP-Seq前期或者基本的dataanalysis主要分兩部分一是readsalignment,因為測序得到的read序列并不知道其在對應(yīng)genome上的位置,也就是說不知道測序iT)來的read定位在genome±的什么地方,因此,首先得用alignmenttool把這些readmap到基因組上。那是不是一般blast軟件都可以完成了?答案是否定的。read數(shù)目非常多,都是按照million數(shù)量級計算,并且長度短,一般為20?3Obp左右,一般的blas
2、t軟件遇到短序列,無法使用,像苦名的blasto我曾經(jīng)試過,在我們實驗室口己的服務(wù)器上用blat(這個可以blast短序列)mapread,消耗時間很長,最后我無法忍受停掉了,這里我不太記得我花了多少天。述有兒個問題,就是blast的吋候是否允許錯配的問題。我曾經(jīng)在畢業(yè)答辯的時候被問到這個問題,為什么在blast的時候耍允許錯配?雖然問題很白癡,但是還是值得仔細(xì)思考。首先,我們使用的genomesequecne木身就是測序得到的,這些sequence木身就可能含有測序錯謀。另外,ChIP-Seq實驗小使用的樣本,其seque
3、nce可能有差異,比如SNP,也就是說個體和個體直接的sequenceinformation是有差界的,并不是100%相同。還有,可能是比較重耍的一點,就是ChlP-Seq實驗在sequence過程中,可能有錯誤。我曾經(jīng)問過做ChlP-Seq實驗的人(他們自己sequence序列,不是公司sequence),ChlP-Seq實驗過程屮哪些因素會導(dǎo)致sequence錯謀?其實,世界上現(xiàn)在對于ChlP-Seq原理并不是100%了解,尤其是ChlP-Seq實驗過程中出現(xiàn)的各種奇怪現(xiàn)象的原因,人們只能在后續(xù)分析中盡量減少這些因素的影
4、響。那么,允許兒個錯配比較合適呢?目前已發(fā)表的paper±來看,都是允許2個mism珀ch。但是,沒有哪一篇解釋為什么是2,而不是3,4或其它。我想,可能是第一篇ChlP-Seqpaper使用的是2,于是后面的人都紛紛使用2mismatcho那如果read長度不同了?都使用2mismatch嗎?這個問題值得仔細(xì)思考一下。另外,在map的過程中,只保留unique的read。為什么這樣呢?因為一個read如果能map到多個位點,我們就不知道這個read信號到底是屬于哪個位置?比如對于研究TF問題,我們就不知道這個TF到底是bi
5、nding哪個位點。因此對于這樣的read應(yīng)該去掉。但是,這樣去掉后,會損失很多read,我的經(jīng)驗是20?30%,這個也得看具體數(shù)據(jù)。最近我也在思考,能否訃這樣的read發(fā)揮它們的余熱。下血說說,目前能做readalignment的比較好用的幾個tool1.ELAND這個當(dāng)仁不讓是這方而的老大哥啦,它是Illumina公司口己開發(fā)的一個軟件,速度非???,精度也很高,這個軟件我使用過,把3m訂lion左右的readmap到humangenome上人概只要2小時左右,并且對內(nèi)存要求很小(這個我后面會談到)。唯一缺點就是就是和so
6、lexa測序儀捆綁銷售,我想沒人會發(fā)瘋到,為了用ELAND而去買臺solexa測序儀吧?這個軟件低版本最長只支持到32bp的read,新版本ELAND解決了這個問題。2.SOAP這個是ELAND很好的替代品,而且是中國人寫的,其中還有一個小孩,是北大的,很NB。平時不管我問他什么問題,他都或多或少懂一些,并H.能跟我講的很清楚。這個軟件速度也比較快,但是比ELAND慢,前面同樣的數(shù)據(jù),SOAP人概需要1天對一點時間才能完成。這個軟件很要命的一點就是,對內(nèi)存要求很高。因為它是把基因組信息讀到內(nèi)存中建索引,大概是genomefi
7、le大小的4倍!如果要做human的map,至少需耍32G內(nèi)存,一般小型服務(wù)器是無法滿足的。這個軟件有個參數(shù)很有意思,大致就是,考慮到測序過程中,對于一個read測得序列越長那么出錯的概率就會越人,于是在map過程中,就依次截掉一個3'堿基,然后再map,直到序列太短。當(dāng)然這里面具體的參數(shù)可以設(shè)置。此外,SOAP在map過程中允許gap,這是ELAND做不到的。如我前而所談到的,我很想弄清楚,這些sequencingerror來源是什么,但是冃前述不知道。具體可以看Li,R.,Li,Y.,Kristiansen,K?Wang
8、,J.SOAP:shortoligonucleotidealignmentprogram.Bioinformatics24,713?714(2008).1.Maq這個也是中國人寫的,這個人似乎現(xiàn)在在英國。我不太喜歡用這個軟件,因為它用一個mapquality參數(shù)去衡量map的結(jié)果,如果我想