資源描述:
《基因流分析流程.docx》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、基因流計算文檔說明一.基因流大小估算群體結(jié)構(gòu)模式是海島結(jié)構(gòu)模式,基因流在群體間是隨機(jī)的、均一的而且群體也要達(dá)到漂變-遷移平衡,遷移個體來自所有其他群體中隨機(jī)的一個遺傳變異群體。該模型的基本思想是假設(shè)1個群體分化為無限多個亞群體,亞群體在空間呈離散分布,每個亞群體接受一小部分來自整個群體的遷移個體。遷移率與遷移基因頻率在任一世代內(nèi)假設(shè)為常數(shù)。島嶼模型中的Nm為每代遷入的有效個體數(shù),即基因流的估計值。其計算公式為:Nm=1-Fst4FstWright,S.Thegeneticalstructureofpopulations.AnnEugen,1951.
2、15(4):p.323-54.二.長期基因流流向計算采用MIGRATE-N軟件中Bayesianinference的策略估算群體間基因流流向,對于群體A和群體B之間基因流流向來說,存在四種可能的模型:1)基因流在A和B之間雙向流動;2)基因流從A流向B;3)基因流從B流向A;4)兩者為同一群體。該軟件通過分別計算前三種模型的marginallikelihood值,再轉(zhuǎn)換為BayesFactors進(jìn)行比較來確定各模型的可能性。(1)軟件運(yùn)行命令/share/nas1/zhougang/soybeans/migrate/migrate-3.6.4/bi
3、n/bin/migrate-nparmfileparmfile為參數(shù)文件,具體設(shè)置詳見(3)。(2)輸入文件格式MIGRATE-N軟件支持多種輸入格式,但此類軟件運(yùn)行時間均非常漫長,在利用檢測到的全基因組SNP作基因流流向估計時,為減少運(yùn)行時間,我們通常把所有位點(diǎn)SNP連成DNA序列來進(jìn)行運(yùn)算,在此我們僅介紹DNA序列模式的輸入文件格式:第一行:分為4列數(shù)據(jù)信息,第一列留空,第二列為群體數(shù)目,第三列為位點(diǎn)數(shù)目,第四列為數(shù)據(jù)注釋;第二行:列數(shù)與位點(diǎn)數(shù)目等同,每列為該位點(diǎn)所含堿基數(shù);第三行:群體1信息,列出群體內(nèi)個體數(shù)及群體名字;第四行起:每個位點(diǎn)該群
4、體內(nèi)個體信息。(1)運(yùn)行參數(shù)主要為parmfile參數(shù)文件的設(shè)置,該設(shè)置可以在命令行中修改,也可以直接采用文本編輯器直接編輯。①設(shè)置輸入輸出文件路徑上圖中1和7分別為輸入輸出路徑設(shè)置選項,也可在parmfile文件中直接對infile和outfile行進(jìn)行更改。①選擇需要分析的模型:圖中選項8即為模型選擇項,三種不同模型選擇如下圖示意,*表示計算,0表示忽略,因此選項值****表示模型一;*0**表示模型二,**0*表示模型三,而*00*則不進(jìn)行任何計算,該選項也可在parmfile文件中直接對custom-migration行進(jìn)行更改。②運(yùn)行參數(shù)
5、選擇主要設(shè)置選項:10,更改迭代次數(shù),默認(rèn)5000,次數(shù)越大越好,但運(yùn)行時間也相應(yīng)增加,建議最少10,000次以上;12,重復(fù)計算,默認(rèn)關(guān)閉,建議設(shè)置3-5次為佳;13,heating選項,默認(rèn)關(guān)閉,建議打開,直接采用其打開后的heating的參數(shù)。以上參數(shù)也可在parmfile文件long-sample、replicate及heating行中修改,如:long-sample=100000,replicate=YES:3,heating=YES:0:{1.000000,1.500000,3.000000,1000000.000000}。注意:在命令
6、行窗口中,所有參數(shù)設(shè)置完成后,必須輸入W生成parmfile文件才會保存所有參數(shù),在parmfile文件中修改則直接保存即可。(1)結(jié)果輸出每個模型分別計算后,均可輸出pdf結(jié)果文件,也可直接用文本編輯器打開同名文件提取結(jié)果,主要為Thermodynamicintegration值和Harmonicmean值,Thermodynamicintegration值有兩個,分為1a和1b,簡單來說1a,1b(Thermodynamicintegration)就是采用heating參數(shù)后的結(jié)果,而2(Harmonicmean)是沒有采用heating參數(shù)的
7、結(jié)果;1a,1b之間的區(qū)別是作者認(rèn)為1b采用了貝賽爾曲線從而獲得了更好地結(jié)果。要統(tǒng)計各個模型的可能性,要轉(zhuǎn)換為BayesFactors進(jìn)行比較,我們現(xiàn)在結(jié)果中的數(shù)值是marginallikelihood值,BF=Exp[log(P(D
8、thisModel)-log(P(D
9、otherModel)]。舉例來說,我有一組1b的結(jié)果三個模型的marginallikelihood值分別為-3,-2,-1,那么我們先取常數(shù)e-3,e-2和e-1的值,然后這三個值相加每個值與和的比值就是每個模型的可能性。通常來說,因?yàn)槲覀冚斎氲腟NP序列會較長,計算得到的值負(fù)
10、數(shù)太小,要是取e的負(fù)幾十萬次方根本無法計算,所以不好算這個P值,但是可以簡單的知道互相之間的可能性大小,值越大,概率越大,