資源描述:
《缺失SNP位點(diǎn)基因型推測(cè).ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在PPT專(zhuān)區(qū)-天天文庫(kù)。
1、缺失SNP位點(diǎn)基因型推測(cè)報(bào)告人:施偉相關(guān)知識(shí)基因型推測(cè):依據(jù)已分型位點(diǎn)的基因型對(duì)數(shù)據(jù)缺失位點(diǎn)或未分型位點(diǎn)進(jìn)行基因型預(yù)測(cè)。理論基礎(chǔ):位點(diǎn)間的連鎖不平衡,即不同位點(diǎn)上的等位基因不是獨(dú)立出現(xiàn),傾向于一起傳遞給下一代。基因型推測(cè)作用:缺失數(shù)據(jù)推測(cè)和稀罕SNP推測(cè)基因型預(yù)測(cè)過(guò)程目前關(guān)于基因型預(yù)測(cè)的研究工作主要在兩個(gè)方面:參照面板的選取和預(yù)測(cè)的方法。參照面板:參照參照面板大多是來(lái)自國(guó)際單體型圖計(jì)劃(HapMap),參照面板的選擇主要依據(jù)研究人群來(lái)確定。HapMap第二階段數(shù)據(jù)包括了來(lái)自歐洲(CEU)、中國(guó)北京(cHB)、日本東京(JPT)和非洲(YRI)
2、270個(gè)個(gè)體的超過(guò)310萬(wàn)個(gè)SNP位點(diǎn)信息,另一種獲得參照面板的方法是從研究樣本中選擇一個(gè)子樣本,對(duì)這個(gè)子樣本的個(gè)體進(jìn)行較多位點(diǎn)的分型,這個(gè)子樣本的基因型數(shù)據(jù)就可以作為一個(gè)參照面板,這種方法比直接使用HapMap數(shù)據(jù)費(fèi)用更高,但是這種方法填補(bǔ)的基因型具有更高的準(zhǔn)確度。預(yù)測(cè)方法:基因型預(yù)測(cè)所用的參數(shù)估計(jì)方法包括期望最大化算法(expectationmaximizationalgorithm,EM)和馬科夫鏈蒙特卡羅算法(MarkovChainMonteCarlo,MCMC)?,F(xiàn)有預(yù)測(cè)方法基于的統(tǒng)計(jì)模型主要是單體型聚類(lèi)算法、隱馬可夫模型和馬科夫鏈
3、模型?,F(xiàn)在用于基因型預(yù)測(cè)的軟件主要有:Impute、fastPhase、MACH、BEAGLEIMPUTE:假設(shè)每個(gè)個(gè)體之間的基因型是相互獨(dú)立的。它把已知單體型對(duì)序列看作是HMM中的隱狀態(tài),同時(shí)定義一個(gè)以已知單體型(參照面板中的單體型信息)為條件的條件概率作為轉(zhuǎn)移概率,用這些隱狀態(tài)和轉(zhuǎn)移概率建立HMM模型,即根據(jù)已知單體型估計(jì)缺失基因型。fastPhase:假設(shè)每一個(gè)單體型都從某一個(gè)聚類(lèi)中產(chǎn)生。用EM算法估計(jì)模型參數(shù),利用基于HMM中隱變量的條件分布計(jì)算缺失基因型在已觀測(cè)基因型和估計(jì)的模型參數(shù)條件下的條件概率,使這個(gè)條件概率最大的基因型則成為
4、該位點(diǎn)基因型的填補(bǔ)基因型。BEAGLE:利用局部單體型聚類(lèi)方法定義一個(gè)二倍體HMM。Beagle和fastPHASE都是基于HMM單體型聚類(lèi)的方法,它們之間的區(qū)別在于fastPHASE在估計(jì)模型參數(shù)時(shí)使用的是EM算法,而B(niǎo)eagle用根據(jù)當(dāng)前所估計(jì)的單體型進(jìn)一步算法計(jì)算得到的經(jīng)驗(yàn)值作為參數(shù)。MACH:這個(gè)軟件是基于馬科夫鏈模型設(shè)計(jì)的,根據(jù)個(gè)體的基因型推斷單體型。這種算法做單體型分析時(shí)先隨機(jī)地選擇一對(duì)與已觀測(cè)的基因型匹配單體型,并且為轉(zhuǎn)移概率(模型的參數(shù))估計(jì)一個(gè)初始值。在運(yùn)算過(guò)程中,單體型對(duì)(Haplotypepair)會(huì)不斷地通過(guò)蒙特卡羅方
5、法迭代更新。每次迭代都利用HMM對(duì)每一個(gè)個(gè)體抽取一對(duì)新的單體型,模型參數(shù)也在每次迭代中得到更新。經(jīng)過(guò)多次的重復(fù)和更新后可以得到一對(duì)真正匹配(或匹配概率最大)的單體型。各種預(yù)測(cè)方法的優(yōu)劣處:Impute方法不需要進(jìn)行參數(shù)估計(jì),但計(jì)算復(fù)雜度高;FastPHASE靈活適用于大型數(shù)據(jù)集,在大量染色體情況下,計(jì)算復(fù)雜度只是線性增加,但要對(duì)模型的很多參數(shù)進(jìn)行估計(jì),這會(huì)減慢計(jì)算速度;MACH通過(guò)蒙特卡羅方法迭代更新單體型對(duì),同時(shí)模型參數(shù)也在每次迭代中更新,這使其能更靈活地進(jìn)行數(shù)據(jù)集的分析,但實(shí)際上,對(duì)有些參數(shù)的估計(jì)并不是很準(zhǔn)確,從而降低了該方法的計(jì)算效率。
6、BEAGKE適用于局部單倍型多樣的情況,所占的內(nèi)存較小,但精確度比不上MACH和Impute。fastPhase推測(cè)方法原理:在一些染色體短片段內(nèi),同一種群的單倍體傾向于聚集在一些相似單倍體組中。方法:建立一個(gè)基于單倍體的聚類(lèi)模型,并且假設(shè)每一個(gè)單體型都從某一個(gè)聚類(lèi)中產(chǎn)生。用EM算法估計(jì)模型參數(shù),利用基于HMM中隱變量的條件分布計(jì)算缺失基因型在已觀測(cè)基因型和估計(jì)的模型參數(shù)條件下的條件概率,使這個(gè)條件概率最大的基因型則成為該位點(diǎn)基因型的填補(bǔ)基因型。單倍體聚類(lèi)模型假設(shè):有n個(gè)單倍體,每個(gè)單倍體由M個(gè)標(biāo)記SNP位點(diǎn)組成h=(h1,…,hn),hi=
7、(hi1,…,hiM).并假設(shè)SNP位點(diǎn)為二等位基因,每個(gè)等位基因標(biāo)記為0或者1,每個(gè)單體型樣本都來(lái)自于某一個(gè)類(lèi)k,總共有K個(gè)類(lèi),hi的初始的類(lèi)為Zi:由于初始的類(lèi)是未知的,所以單倍體hi的概率是:局部單體型聚類(lèi)模型:對(duì)單倍體模型的修改,將每一個(gè)單倍體都來(lái)自于某一個(gè)類(lèi)的假設(shè)替換成每一個(gè)等位基因來(lái)自于某一個(gè)特定的類(lèi)。不同的顏色代表不同的類(lèi),每一列代表一個(gè)SNP位點(diǎn),每?jī)尚幸来未硪粋€(gè)個(gè)體的一對(duì)單體型。替換原因:類(lèi)成員在單體型上是變化的單倍體局部聚類(lèi)模型:定義:Zim為第i個(gè)單倍體的第m個(gè)等位基因所屬的類(lèi)則構(gòu)成一個(gè)馬爾科夫鏈,初始狀態(tài)的概率:狀
8、態(tài)轉(zhuǎn)移概率是:其中dm為兩位點(diǎn)間的物理距離,rm是一個(gè)跳躍率。所以單倍體hi的概率是:?jiǎn)伪扼w聚類(lèi)模型到基因型數(shù)據(jù)的擴(kuò)展:主要方法是認(rèn)為由兩個(gè)單倍體組成的未分型的基因