基因表達數(shù)據(jù)的聚類算法設(shè)計與分析

基因表達數(shù)據(jù)的聚類算法設(shè)計與分析

ID:32181445

大小:4.10 MB

頁數(shù):57頁

時間:2019-02-01

基因表達數(shù)據(jù)的聚類算法設(shè)計與分析_第1頁
基因表達數(shù)據(jù)的聚類算法設(shè)計與分析_第2頁
基因表達數(shù)據(jù)的聚類算法設(shè)計與分析_第3頁
基因表達數(shù)據(jù)的聚類算法設(shè)計與分析_第4頁
基因表達數(shù)據(jù)的聚類算法設(shè)計與分析_第5頁
資源描述:

《基因表達數(shù)據(jù)的聚類算法設(shè)計與分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、天津大學(xué)碩士學(xué)位論文基因表達數(shù)據(jù)的聚類算法設(shè)計與分析姓名:姜中博申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:趙政20080501中文摘要DNA的微陣列技術(shù)(microarray)使得在重要的生物過程中同時檢測大量的基因表達水平變得可能。揭示隱藏在基因表達數(shù)據(jù)中的基因模式可以提供一個可以加深對功能性基因的理解的重要機會。但是,巨大的基因數(shù)目和生物網(wǎng)絡(luò)的復(fù)雜性增加了理解和解釋這些基因的挑戰(zhàn)。而解決這個挑戰(zhàn)的第一步工作就是利用聚類技術(shù),因為它是從底層的數(shù)據(jù)中揭示自然結(jié)構(gòu)和識別有意義的模式的數(shù)據(jù)過程中的重要步驟。本文的工作就是設(shè)計并研究針對基因表達數(shù)據(jù)的有效的聚類算法。本文

2、的主要工作為兩部分內(nèi)容:第一部分工作中,本文提出一個基于最小生成樹的聚類算法,叫做基于最小生成樹的不定劃分的聚類算法(aMST-basedUncertainPartitionclusteringalgorithm,MUP)。它能夠快速有效地聚類分析基因表達數(shù)據(jù)。MUP算法的最大特點是:1,與其他基于最小生成樹的算法的不同之處是不相容邊的確定方法。MUP算法采用兩個連續(xù)的步驟來完成:滑動窗口來識別當前簇的潛在的不相容邊和利用目標函數(shù)來確定真正的將被剪斷的不相容邊。2,在沒有先驗知識的情況下,能夠自動確定簇的數(shù)量。3,在具有噪聲的背景中仍然能夠發(fā)現(xiàn)有意義的基因模式。在用MU

3、P算法分別分析兩個公開的且流行的基因表達數(shù)據(jù)集,Wen的數(shù)據(jù)集和lyer的數(shù)據(jù)集時,得到了很好的聚類結(jié)果。這說明MUP算法對大規(guī)模的基因表達數(shù)據(jù)是有效的。第二部分工作中,本文研究多視圖的正交子空間聚類算法在應(yīng)用基因表達數(shù)據(jù)時的聚類質(zhì)量。正交子空間聚類算法已經(jīng)成功地應(yīng)用在其他一些領(lǐng)域,比如文本聚類,圖像數(shù)據(jù)聚類等。理論上它可以用于分析基因表達數(shù)據(jù),所以本文采用另一個公開的且流行的基因表達數(shù)據(jù),Cho的數(shù)據(jù)集,來研究分析正交子空間聚類算法在基因表達數(shù)據(jù)集上的聚類效果和意義。通過實驗分析,本文得出結(jié)論,正交子空間算法也能夠從多個側(cè)面很好的分析基因表達數(shù)據(jù)集。本文中的MUP算法

4、和多視圖的正交子空間聚類算法都能夠有效的分析基因表達數(shù)據(jù),它們?yōu)榛虮磉_數(shù)據(jù)的研究和下一步的其他工作提供了有力的支持。關(guān)鍵詞:基因表達數(shù)據(jù)聚類算法最小生成樹MUP聚類算法正交子空間聚類ABSTRACTDNAmicroarraytechnologyhasnOWmadeitpossibletosimultaneouslymonitortheexpressionlevelsofthousandsofgenesduringbiologicalprocesses.Elucidatingthepatternsingenesoffersatremendousopportunityfo

5、rallenhancedunderstandingoffunctionalgenomics.However,thelargenumberofgenesandthecomplexityofbiologicalnetworksgreatlyincreasethechallengesofinterpretinggenes.Afirststeptowardaddressingthischallengeistheuseofclustering,whichisanessentialprocesstorevealnaturalstructuresandidentifyinterest

6、ingpaRemsintheunderlyingdata.Theworkofthispaperistogudyclusteringalgorithmsappliedongeneexpressiondata.Inthefirstpart,thispaperproposesaclusteringalgorithmbasedonminimumspanningtrees(MST),calledaMST-basedUncertainPartitionclusteringalgorithm,MUEItcanfastandeffectivelyfinishclusteringanal

7、ysisongeneexpressiondata.ThefeaturesofMUPalgorithmare:First,itsdifferencewithotherMST-basedclusteringalgorithmsisthemethodtodetermineinconsistentedges.Ittakestwosteps:slidingawindowtosearchpotentialinconsistentedgesanddeterminingrealinconsistentedgesbyusingtheobjectivefun

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。