資源描述:
《基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、天津大學(xué)碩士學(xué)位論文基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析姓名:姜中博申請(qǐng)學(xué)位級(jí)別:碩士專(zhuān)業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:趙政20080501中文摘要DNA的微陣列技術(shù)(microarray)使得在重要的生物過(guò)程中同時(shí)檢測(cè)大量的基因表達(dá)水平變得可能。揭示隱藏在基因表達(dá)數(shù)據(jù)中的基因模式可以提供一個(gè)可以加深對(duì)功能性基因的理解的重要機(jī)會(huì)。但是,巨大的基因數(shù)目和生物網(wǎng)絡(luò)的復(fù)雜性增加了理解和解釋這些基因的挑戰(zhàn)。而解決這個(gè)挑戰(zhàn)的第一步工作就是利用聚類(lèi)技術(shù),因?yàn)樗菑牡讓拥臄?shù)據(jù)中揭示自然結(jié)構(gòu)和識(shí)別有意義的模式的數(shù)據(jù)過(guò)程中的重要步驟。本文的工作就是設(shè)計(jì)并研究針對(duì)基因表達(dá)數(shù)據(jù)的有效的聚類(lèi)算法。本文
2、的主要工作為兩部分內(nèi)容:第一部分工作中,本文提出一個(gè)基于最小生成樹(shù)的聚類(lèi)算法,叫做基于最小生成樹(shù)的不定劃分的聚類(lèi)算法(aMST-basedUncertainPartitionclusteringalgorithm,MUP)。它能夠快速有效地聚類(lèi)分析基因表達(dá)數(shù)據(jù)。MUP算法的最大特點(diǎn)是:1,與其他基于最小生成樹(shù)的算法的不同之處是不相容邊的確定方法。MUP算法采用兩個(gè)連續(xù)的步驟來(lái)完成:滑動(dòng)窗口來(lái)識(shí)別當(dāng)前簇的潛在的不相容邊和利用目標(biāo)函數(shù)來(lái)確定真正的將被剪斷的不相容邊。2,在沒(méi)有先驗(yàn)知識(shí)的情況下,能夠自動(dòng)確定簇的數(shù)量。3,在具有噪聲的背景中仍然能夠發(fā)現(xiàn)有意義的基因模式。在用MU
3、P算法分別分析兩個(gè)公開(kāi)的且流行的基因表達(dá)數(shù)據(jù)集,Wen的數(shù)據(jù)集和lyer的數(shù)據(jù)集時(shí),得到了很好的聚類(lèi)結(jié)果。這說(shuō)明MUP算法對(duì)大規(guī)模的基因表達(dá)數(shù)據(jù)是有效的。第二部分工作中,本文研究多視圖的正交子空間聚類(lèi)算法在應(yīng)用基因表達(dá)數(shù)據(jù)時(shí)的聚類(lèi)質(zhì)量。正交子空間聚類(lèi)算法已經(jīng)成功地應(yīng)用在其他一些領(lǐng)域,比如文本聚類(lèi),圖像數(shù)據(jù)聚類(lèi)等。理論上它可以用于分析基因表達(dá)數(shù)據(jù),所以本文采用另一個(gè)公開(kāi)的且流行的基因表達(dá)數(shù)據(jù),Cho的數(shù)據(jù)集,來(lái)研究分析正交子空間聚類(lèi)算法在基因表達(dá)數(shù)據(jù)集上的聚類(lèi)效果和意義。通過(guò)實(shí)驗(yàn)分析,本文得出結(jié)論,正交子空間算法也能夠從多個(gè)側(cè)面很好的分析基因表達(dá)數(shù)據(jù)集。本文中的MUP算法
4、和多視圖的正交子空間聚類(lèi)算法都能夠有效的分析基因表達(dá)數(shù)據(jù),它們?yōu)榛虮磉_(dá)數(shù)據(jù)的研究和下一步的其他工作提供了有力的支持。關(guān)鍵詞:基因表達(dá)數(shù)據(jù)聚類(lèi)算法最小生成樹(shù)MUP聚類(lèi)算法正交子空間聚類(lèi)ABSTRACTDNAmicroarraytechnologyhasnOWmadeitpossibletosimultaneouslymonitortheexpressionlevelsofthousandsofgenesduringbiologicalprocesses.Elucidatingthepatternsingenesoffersatremendousopportunityfo
5、rallenhancedunderstandingoffunctionalgenomics.However,thelargenumberofgenesandthecomplexityofbiologicalnetworksgreatlyincreasethechallengesofinterpretinggenes.Afirststeptowardaddressingthischallengeistheuseofclustering,whichisanessentialprocesstorevealnaturalstructuresandidentifyinterest
6、ingpaRemsintheunderlyingdata.Theworkofthispaperistogudyclusteringalgorithmsappliedongeneexpressiondata.Inthefirstpart,thispaperproposesaclusteringalgorithmbasedonminimumspanningtrees(MST),calledaMST-basedUncertainPartitionclusteringalgorithm,MUEItcanfastandeffectivelyfinishclusteringanal
7、ysisongeneexpressiondata.ThefeaturesofMUPalgorithmare:First,itsdifferencewithotherMST-basedclusteringalgorithmsisthemethodtodetermineinconsistentedges.Ittakestwosteps:slidingawindowtosearchpotentialinconsistentedgesanddeterminingrealinconsistentedgesbyusingtheobjectivefun