2、主基因基因型則將是具有不同平均數(shù)和相同方差的多個正態(tài)分布的混合.因此,分離分析通過高斯混合模型的構(gòu)建、參數(shù)的極大似然估計以及似然比檢驗統(tǒng)計量的計算,從而實現(xiàn)主基因的效應(yīng)估計和各種遺傳假設(shè)測驗.然而,現(xiàn)有的分離分析方法均是基于單一性狀進行的,主基因的統(tǒng)計功效較低.為此,本研究提出一種多性狀主基因聯(lián)合分析方法一多元分離分析方法(MultivariateSegregationAnalysis,MSA),MSA可以充分利用多個數(shù)量性狀問的遺傳相關(guān)和剩余相關(guān)信息,因此有望提高主基因的檢測功效,以及削析復雜性狀的遺傳結(jié)構(gòu).MSA通過建
3、立多個多元高斯分布的混合模型,采用EM算法實現(xiàn)的極大似然估計方法進行主基因的分離比例、主基因效應(yīng)和剩余變異估計,以似然比測驗統(tǒng)計量進行主基因的各種遺傳假設(shè)檢驗,以一因多效、獨立遺傳和緊密連鎖3種可能模型下的貝葉斯信息準則(BayesianInformationCriterion,BIC)來區(qū)分主基因是一因多效還是緊密連鎖.為了驗證方法的可行性,模擬研究以F2群體為例設(shè)置了兩套模擬實驗,模擬實驗1研究不同主基因遺傳力和樣本容量下MSA的統(tǒng)計功效、主基因效應(yīng)和剩余變異估計的準確度和精確度.模擬實驗2研究不同遺傳力下MSA區(qū)分一
4、因多效主基因或緊密連鎖主基因的能力.計算機模擬研究結(jié)果表明:(1)無論主基因是同時控制多個性狀的表達,還是僅控制其中一個性狀的表達,由于聯(lián)合分析充分利用了性狀之間的相關(guān)信息,MSA均可以顯著提高主基因的被發(fā)現(xiàn)能力.(2)MSA可以顯著增加主基因效應(yīng)估計值的準確度和精確度,通常來說,只要主基因的檢測功效高達50%以上,其相應(yīng)估計值的準確度和精確.4-揚州大學博士學位論文度均可達到較理想水平.(3).MSA還能夠有效的區(qū)分多性狀是受一個主基因控制還是受緊密連鎖的多個主基因控制.(4)對遺傳力和樣本容量兩個影響主基因檢測功效的關(guān)
5、鍵因素來說,其作用效果則是遺傳力明顯大于樣本容量.以水稻雜交組合多蘗矮X中花ll的F2群體597個植株株高和分蘗數(shù)為例演示了分析程序。結(jié)果表明該組合的株高和分蘗數(shù)受同一主基因控制。該主基因?qū)χ旮叩募有院惋@性效應(yīng)分別為-21.3鋤和40.6cm,表現(xiàn)為超顯性;對分蘗數(shù)的加性和顯性效應(yīng)則分別為22.7和.25.3,表現(xiàn)為接近完全顯性.上述MSA不僅可以估計模型中的遺傳參數(shù),而且可計算出每個個體屬于不同主基因基因型的后驗概率,因此,本研究提出根據(jù)個體的貝葉斯后驗概率進行個體分類的新方法,即一種基于模型的非監(jiān)督動態(tài)聚類方法。該方法
6、同樣是以EM算法實現(xiàn)的極大似然估計方法實現(xiàn)各個類參數(shù)估計,以個體所屬類別的貝葉斯后驗概率判別個體的歸類。模擬研究結(jié)果表明:(1)該方法通常既可無偏估計類參數(shù)又可根據(jù)各種模型的BIC值確定最佳分類個數(shù),從而解決傳統(tǒng)動態(tài)聚類法類數(shù)難確定的問題.(2)與重心法動態(tài)聚類(k-means)和最小組內(nèi)平方和法(MinimumSquamSumWithinQ伽融MinSSw)動態(tài)聚類相比,穩(wěn)健性較高.(3)通過提高判別標準,可以有效降低誤判率(MisclassifiedRate。MR).以Fisher的hig試驗數(shù)據(jù)驗證了方法的可行性,分
7、析結(jié)果表明基于似然函數(shù)極大為目標的非監(jiān)督動態(tài)聚類方法特別適于原始數(shù)據(jù)為高斯分布的數(shù)據(jù)聚類,其誤判率顯著低于加n∞ns和Minssw法。DNA微陣列技術(shù)是后基因組時代功能基因組研究的主要工具之一,它可以一次同對溯出不同實驗環(huán)境或不同組織的成千上萬個基因的表達水平.將相似表達模式的基因聚在一個類中的基因聚類分析,是提取基因表達譜數(shù)據(jù)潛在生物學信息的有用工具,同時也是徽陣列數(shù)據(jù)分析中使用最為廣泛的一類方法.聚類技術(shù)依據(jù)先驗信息的有無,又可分為非監(jiān)督聚類和監(jiān)督聚類.為了探討上述基于模型的聚類方法應(yīng)用于高維微陣列表達譜數(shù)據(jù)分析的可行
8、性,分別用計算機模擬數(shù)據(jù)、酵母細胞周期微陣列數(shù)據(jù)以及人類癌細胞NCI.石0微陣列數(shù)據(jù)進行聚類分析,并與七.最近鄰居法(k-NearestNcighbouz,心m),二分類支持向量機器(SupprotV∞tofMachin姻,SVMs)以及多分類SVMs(MulticatcgorySVMs,MC-SVl恤