資源描述:
《缺失SNP位點基因型推測.ppt》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在PPT專區(qū)-天天文庫。
1、缺失SNP位點基因型推測報告人:施偉相關(guān)知識基因型推測:依據(jù)已分型位點的基因型對數(shù)據(jù)缺失位點或未分型位點進(jìn)行基因型預(yù)測。理論基礎(chǔ):位點間的連鎖不平衡,即不同位點上的等位基因不是獨立出現(xiàn),傾向于一起傳遞給下一代?;蛐屯茰y作用:缺失數(shù)據(jù)推測和稀罕SNP推測基因型預(yù)測過程目前關(guān)于基因型預(yù)測的研究工作主要在兩個方面:參照面板的選取和預(yù)測的方法。參照面板:參照參照面板大多是來自國際單體型圖計劃(HapMap),參照面板的選擇主要依據(jù)研究人群來確定。HapMap第二階段數(shù)據(jù)包括了來自歐洲(CEU)、中國北京(cHB)、日本東京(JPT)和非洲(YRI)
2、270個個體的超過310萬個SNP位點信息,另一種獲得參照面板的方法是從研究樣本中選擇一個子樣本,對這個子樣本的個體進(jìn)行較多位點的分型,這個子樣本的基因型數(shù)據(jù)就可以作為一個參照面板,這種方法比直接使用HapMap數(shù)據(jù)費(fèi)用更高,但是這種方法填補(bǔ)的基因型具有更高的準(zhǔn)確度。預(yù)測方法:基因型預(yù)測所用的參數(shù)估計方法包括期望最大化算法(expectationmaximizationalgorithm,EM)和馬科夫鏈蒙特卡羅算法(MarkovChainMonteCarlo,MCMC)。現(xiàn)有預(yù)測方法基于的統(tǒng)計模型主要是單體型聚類算法、隱馬可夫模型和馬科夫鏈
3、模型?,F(xiàn)在用于基因型預(yù)測的軟件主要有:Impute、fastPhase、MACH、BEAGLEIMPUTE:假設(shè)每個個體之間的基因型是相互獨立的。它把已知單體型對序列看作是HMM中的隱狀態(tài),同時定義一個以已知單體型(參照面板中的單體型信息)為條件的條件概率作為轉(zhuǎn)移概率,用這些隱狀態(tài)和轉(zhuǎn)移概率建立HMM模型,即根據(jù)已知單體型估計缺失基因型。fastPhase:假設(shè)每一個單體型都從某一個聚類中產(chǎn)生。用EM算法估計模型參數(shù),利用基于HMM中隱變量的條件分布計算缺失基因型在已觀測基因型和估計的模型參數(shù)條件下的條件概率,使這個條件概率最大的基因型則成為
4、該位點基因型的填補(bǔ)基因型。BEAGLE:利用局部單體型聚類方法定義一個二倍體HMM。Beagle和fastPHASE都是基于HMM單體型聚類的方法,它們之間的區(qū)別在于fastPHASE在估計模型參數(shù)時使用的是EM算法,而Beagle用根據(jù)當(dāng)前所估計的單體型進(jìn)一步算法計算得到的經(jīng)驗值作為參數(shù)。MACH:這個軟件是基于馬科夫鏈模型設(shè)計的,根據(jù)個體的基因型推斷單體型。這種算法做單體型分析時先隨機(jī)地選擇一對與已觀測的基因型匹配單體型,并且為轉(zhuǎn)移概率(模型的參數(shù))估計一個初始值。在運(yùn)算過程中,單體型對(Haplotypepair)會不斷地通過蒙特卡羅方
5、法迭代更新。每次迭代都利用HMM對每一個個體抽取一對新的單體型,模型參數(shù)也在每次迭代中得到更新。經(jīng)過多次的重復(fù)和更新后可以得到一對真正匹配(或匹配概率最大)的單體型。各種預(yù)測方法的優(yōu)劣處:Impute方法不需要進(jìn)行參數(shù)估計,但計算復(fù)雜度高;FastPHASE靈活適用于大型數(shù)據(jù)集,在大量染色體情況下,計算復(fù)雜度只是線性增加,但要對模型的很多參數(shù)進(jìn)行估計,這會減慢計算速度;MACH通過蒙特卡羅方法迭代更新單體型對,同時模型參數(shù)也在每次迭代中更新,這使其能更靈活地進(jìn)行數(shù)據(jù)集的分析,但實際上,對有些參數(shù)的估計并不是很準(zhǔn)確,從而降低了該方法的計算效率。
6、BEAGKE適用于局部單倍型多樣的情況,所占的內(nèi)存較小,但精確度比不上MACH和Impute。fastPhase推測方法原理:在一些染色體短片段內(nèi),同一種群的單倍體傾向于聚集在一些相似單倍體組中。方法:建立一個基于單倍體的聚類模型,并且假設(shè)每一個單體型都從某一個聚類中產(chǎn)生。用EM算法估計模型參數(shù),利用基于HMM中隱變量的條件分布計算缺失基因型在已觀測基因型和估計的模型參數(shù)條件下的條件概率,使這個條件概率最大的基因型則成為該位點基因型的填補(bǔ)基因型。單倍體聚類模型假設(shè):有n個單倍體,每個單倍體由M個標(biāo)記SNP位點組成h=(h1,…,hn),hi=
7、(hi1,…,hiM).并假設(shè)SNP位點為二等位基因,每個等位基因標(biāo)記為0或者1,每個單體型樣本都來自于某一個類k,總共有K個類,hi的初始的類為Zi:由于初始的類是未知的,所以單倍體hi的概率是:局部單體型聚類模型:對單倍體模型的修改,將每一個單倍體都來自于某一個類的假設(shè)替換成每一個等位基因來自于某一個特定的類。不同的顏色代表不同的類,每一列代表一個SNP位點,每兩行依次代表一個個體的一對單體型。替換原因:類成員在單體型上是變化的單倍體局部聚類模型:定義:Zim為第i個單倍體的第m個等位基因所屬的類則構(gòu)成一個馬爾科夫鏈,初始狀態(tài)的概率:狀
8、態(tài)轉(zhuǎn)移概率是:其中dm為兩位點間的物理距離,rm是一個跳躍率。所以單倍體hi的概率是:單倍體聚類模型到基因型數(shù)據(jù)的擴(kuò)展:主要方法是認(rèn)為由兩個單倍體組成的未分型的基因