資源描述:
《轉(zhuǎn)錄組測序從頭組裝》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、轉(zhuǎn)錄組從頭組裝大綱背景介紹實驗數(shù)據(jù)質(zhì)控與過濾組裝功能注釋研究思路探討RNA是解密基因組的關(guān)鍵基因型表型DNAProteinRNA什么是轉(zhuǎn)錄組?全部轉(zhuǎn)錄本全部mRNA4大綱背景介紹實驗數(shù)據(jù)質(zhì)控與過濾組裝功能注釋研究思路探討實驗流程TotalRNAEukaryotesProkaryotesEnrichmRNAbyOligoRemoverRNA(dT)RNAfragment(~200nt)RandomhexamerprimedcDNAsynthesisSizeselectionandPCRamplificationIlluminasequencingRNA片段化與CDNA片段化的比較思
2、考?樣品降解(RNase污染),DNA污染,蛋白污染的評估?1.rRNA比率*28s/18s+≥1.1,RNA完整系數(shù)(RIN)≥72.28s和18s條帶明顯(變性瓊脂糖凝膠電泳)3.比率*260nm/280nm+≥2.0(分光光度計測量)。大綱背景介紹實驗數(shù)據(jù)質(zhì)控與過濾組裝功能注釋研究思路探討測序數(shù)據(jù)說明測序數(shù)據(jù)以fq格式保存:@readIDTGGCGGAGGGATTTGAACCCCCCCTTTTAAAAAAAAA+BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB堿基質(zhì)量值=ASCII值–64范圍:2-40Qphred=-10log10(e)表1So
3、lexa測序錯誤率與測序質(zhì)量值簡明對應(yīng)關(guān)系測序錯誤率測序質(zhì)量值對應(yīng)字符1%20T0.1%30^0.01%40h測序數(shù)據(jù)質(zhì)控(a)Unbalancedbase(b)Balancedbasecompositiononrawreadscompositiononrawreads.測序數(shù)據(jù)質(zhì)控(a)低質(zhì)量的rawreads.(b)高質(zhì)量的rawread.數(shù)據(jù)過濾測序數(shù)據(jù)過濾與質(zhì)量統(tǒng)計:1,去接頭,去污染,去低質(zhì)量2,統(tǒng)計Q20%,GC%,Cleanreads數(shù),有效數(shù)據(jù)量等。質(zhì)控說明:Q20%>80%有效數(shù)據(jù)量滿足合同要求老師需說明提交數(shù)據(jù)的類型(指明是Ra
4、wdata還是cleandata)大綱背景介紹實驗數(shù)據(jù)質(zhì)控與過濾組裝功能注釋研究思路探討組裝流程組裝原理(DeBruijngraph)對于一個給定的read:GTCGAGGread長度:7bps取kmer長度為4bps如下:17組裝原理(DeBruijngraph)?構(gòu)建DeBruijn圖:18組裝原理(DeBruijngraph)?簡化:19組裝原理(DeBruijngraph)?糾錯:Tipsremoved20組裝原理(DeBruijngraph)?糾錯:Bubblesremoved21組裝原理(DeBruijngraph)?解開短的重復(fù)序列(Ifthere’rereadsa
5、ssigningoneoutgoingbranchforeachincomingbranch…)22組裝原理(DeBruijngraph)?Mapreadstocontigs?Contigsareconnectedbypairedreadstoformascaffoldinggraph23組裝原理(DeBruijngraph)?將reads比到scaffolds,根據(jù)overlap在gap處延伸24常用組裝工具SOAPdenovoAByssIDBATrinitySOAPdenovo數(shù)據(jù)格式:FastaorFastq運行程序:soapdenovoall-sconfig_file-o
6、output_prefix分步組裝:soapdenovopregraph-sconfig_file-ooutput_prefixsoapdenovocontig-goutput_prefixsoapdenovomap-sconfig_file-goutput_prefixsoapdenovoscaff-goutput_prefixSOAPdenovo在項目中的應(yīng)用1:K大多數(shù)情況下設(shè)為最高值31取得最好的效果,如果物種雜合率較高,當K較低時得到較好的組裝效果。2:R對于重復(fù)序列較高的物種建議加,一般加了-R都能取得較好的效果3:D是去除不可靠或連接關(guān)系數(shù)弱的邊,現(xiàn)在1014版本將
7、默認設(shè)為1,如果連接的關(guān)系數(shù)較多,可以將D調(diào)高,構(gòu)建更可靠的contig4:M主要針對雜合問題,程序默認設(shè)置為1,對于雜合率較高的物種可適當調(diào)高(當雜合率為千分之二,可設(shè)M為2,當雜合率為千分之三時,可設(shè)M為3)聚類去冗余Scaffold1NNNNNNScaffold2NNNNClusteredbytgiclUnigeneNN28聚類工具?TGICL?Cap3聚類原理1所有scaffolds用mgblast進行相似性比對三個標準過濾:最小overlap長度;最小overlap相似