基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析

基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析

ID:32181445

大?。?.10 MB

頁(yè)數(shù):57頁(yè)

時(shí)間:2019-02-01

基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析_第1頁(yè)
基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析_第2頁(yè)
基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析_第3頁(yè)
基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析_第4頁(yè)
基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析_第5頁(yè)
資源描述:

《基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、天津大學(xué)碩士學(xué)位論文基因表達(dá)數(shù)據(jù)的聚類(lèi)算法設(shè)計(jì)與分析姓名:姜中博申請(qǐng)學(xué)位級(jí)別:碩士專(zhuān)業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:趙政20080501中文摘要DNA的微陣列技術(shù)(microarray)使得在重要的生物過(guò)程中同時(shí)檢測(cè)大量的基因表達(dá)水平變得可能。揭示隱藏在基因表達(dá)數(shù)據(jù)中的基因模式可以提供一個(gè)可以加深對(duì)功能性基因的理解的重要機(jī)會(huì)。但是,巨大的基因數(shù)目和生物網(wǎng)絡(luò)的復(fù)雜性增加了理解和解釋這些基因的挑戰(zhàn)。而解決這個(gè)挑戰(zhàn)的第一步工作就是利用聚類(lèi)技術(shù),因?yàn)樗菑牡讓拥臄?shù)據(jù)中揭示自然結(jié)構(gòu)和識(shí)別有意義的模式的數(shù)據(jù)過(guò)程中的重要步驟。本文的工作就是設(shè)計(jì)并研究針對(duì)基因表達(dá)數(shù)據(jù)的有效的聚類(lèi)算法。本文

2、的主要工作為兩部分內(nèi)容:第一部分工作中,本文提出一個(gè)基于最小生成樹(shù)的聚類(lèi)算法,叫做基于最小生成樹(shù)的不定劃分的聚類(lèi)算法(aMST-basedUncertainPartitionclusteringalgorithm,MUP)。它能夠快速有效地聚類(lèi)分析基因表達(dá)數(shù)據(jù)。MUP算法的最大特點(diǎn)是:1,與其他基于最小生成樹(shù)的算法的不同之處是不相容邊的確定方法。MUP算法采用兩個(gè)連續(xù)的步驟來(lái)完成:滑動(dòng)窗口來(lái)識(shí)別當(dāng)前簇的潛在的不相容邊和利用目標(biāo)函數(shù)來(lái)確定真正的將被剪斷的不相容邊。2,在沒(méi)有先驗(yàn)知識(shí)的情況下,能夠自動(dòng)確定簇的數(shù)量。3,在具有噪聲的背景中仍然能夠發(fā)現(xiàn)有意義的基因模式。在用MU

3、P算法分別分析兩個(gè)公開(kāi)的且流行的基因表達(dá)數(shù)據(jù)集,Wen的數(shù)據(jù)集和lyer的數(shù)據(jù)集時(shí),得到了很好的聚類(lèi)結(jié)果。這說(shuō)明MUP算法對(duì)大規(guī)模的基因表達(dá)數(shù)據(jù)是有效的。第二部分工作中,本文研究多視圖的正交子空間聚類(lèi)算法在應(yīng)用基因表達(dá)數(shù)據(jù)時(shí)的聚類(lèi)質(zhì)量。正交子空間聚類(lèi)算法已經(jīng)成功地應(yīng)用在其他一些領(lǐng)域,比如文本聚類(lèi),圖像數(shù)據(jù)聚類(lèi)等。理論上它可以用于分析基因表達(dá)數(shù)據(jù),所以本文采用另一個(gè)公開(kāi)的且流行的基因表達(dá)數(shù)據(jù),Cho的數(shù)據(jù)集,來(lái)研究分析正交子空間聚類(lèi)算法在基因表達(dá)數(shù)據(jù)集上的聚類(lèi)效果和意義。通過(guò)實(shí)驗(yàn)分析,本文得出結(jié)論,正交子空間算法也能夠從多個(gè)側(cè)面很好的分析基因表達(dá)數(shù)據(jù)集。本文中的MUP算法

4、和多視圖的正交子空間聚類(lèi)算法都能夠有效的分析基因表達(dá)數(shù)據(jù),它們?yōu)榛虮磉_(dá)數(shù)據(jù)的研究和下一步的其他工作提供了有力的支持。關(guān)鍵詞:基因表達(dá)數(shù)據(jù)聚類(lèi)算法最小生成樹(shù)MUP聚類(lèi)算法正交子空間聚類(lèi)ABSTRACTDNAmicroarraytechnologyhasnOWmadeitpossibletosimultaneouslymonitortheexpressionlevelsofthousandsofgenesduringbiologicalprocesses.Elucidatingthepatternsingenesoffersatremendousopportunityfo

5、rallenhancedunderstandingoffunctionalgenomics.However,thelargenumberofgenesandthecomplexityofbiologicalnetworksgreatlyincreasethechallengesofinterpretinggenes.Afirststeptowardaddressingthischallengeistheuseofclustering,whichisanessentialprocesstorevealnaturalstructuresandidentifyinterest

6、ingpaRemsintheunderlyingdata.Theworkofthispaperistogudyclusteringalgorithmsappliedongeneexpressiondata.Inthefirstpart,thispaperproposesaclusteringalgorithmbasedonminimumspanningtrees(MST),calledaMST-basedUncertainPartitionclusteringalgorithm,MUEItcanfastandeffectivelyfinishclusteringanal

7、ysisongeneexpressiondata.ThefeaturesofMUPalgorithmare:First,itsdifferencewithotherMST-basedclusteringalgorithmsisthemethodtodetermineinconsistentedges.Ittakestwosteps:slidingawindowtosearchpotentialinconsistentedgesanddeterminingrealinconsistentedgesbyusingtheobjectivefun

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。