基于極大閉模式的序列投影聚類技術(shù)研究

基于極大閉模式的序列投影聚類技術(shù)研究

ID:34137660

大小:4.48 MB

頁數(shù):68頁

時(shí)間:2019-03-03

基于極大閉模式的序列投影聚類技術(shù)研究_第1頁
基于極大閉模式的序列投影聚類技術(shù)研究_第2頁
基于極大閉模式的序列投影聚類技術(shù)研究_第3頁
基于極大閉模式的序列投影聚類技術(shù)研究_第4頁
基于極大閉模式的序列投影聚類技術(shù)研究_第5頁
資源描述:

《基于極大閉模式的序列投影聚類技術(shù)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、萬方數(shù)據(jù)分類號(hào)UDC密級(jí)學(xué)位論文基于極大閉模式的序列投影聚類技術(shù)研究作者姓名:田國(guó)超指導(dǎo)教師:趙宇海副教授東北大學(xué)信息科學(xué)與工程學(xué)院申請(qǐng)學(xué)位級(jí)別:碩士學(xué)科類別:工學(xué)學(xué)科專業(yè)名稱:計(jì)算機(jī)應(yīng)用技術(shù)論文提交曰期:2014年6月日論文答辯日期:2014年6月21日學(xué)位授予日期:2014年7月日答懶會(huì)主席:?jiǎn)探ㄖ医淌谠u(píng)閱人:李曉光教授劉輝林教授東北大學(xué)2014年6月萬方數(shù)據(jù)AThesisinComputerApplicationTechnologyStudyonTechniquesofMC·-patternBasedSequenc

2、eProjectionClusteringByTianGuochaoSupervisor:AssociateProfessorZhaoYuhaiNortheasternUniversityJune2014萬方數(shù)據(jù)獨(dú)創(chuàng)性聲明本人聲明,所呈交的學(xué)位論文是在導(dǎo)師的指導(dǎo)下完成的。論文中取得的研究成果除加以標(biāo)注和致謝的地方外,不包含其他人己經(jīng)發(fā)表或撰寫過的研究成果,也不包括本人為獲得其他學(xué)位而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名:、羽]國(guó)多魚日期:2_oI壚,

3、占、乙f學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者和指導(dǎo)教師完全了解東北大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定:即學(xué)校有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人同意東北大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索、交流。作者和導(dǎo)師同意網(wǎng)上交流的時(shí)間為作者獲得學(xué)位后:半年口一年口一年半口學(xué)位論文作者簽名:溷匡諺絲簽字日期:乙p忡.6.乙J/兩年一新簽名:麥螬遍簽字日期:二。/牛、彖糾.I.萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文摘要基于極大閉模式的序列投影聚類技術(shù)研究摘要投影聚類作為一種重要的高維

4、聚類分析技術(shù),不同于子空間聚類,投影聚類要求得到一組互斥的對(duì)象劃分,不允許不同聚類共享相同的對(duì)象。由于投影聚類的結(jié)果具有良好的區(qū)分特性,使得該方法開始被應(yīng)用于基因表達(dá)數(shù)據(jù)分析中,用來區(qū)分樣本的具體表型。而己存在的大多數(shù)投影聚類方法基于迭代調(diào)整框架而導(dǎo)致雞.蛋問題。這常常帶來許多缺陷:(1)敏感的調(diào)整順序(2)不合理的基因獨(dú)立假設(shè)(3)過多地挑選低識(shí)別能力的基因。本文中提出了一種新的算法框架,基于極大閉模式的序列投影聚類算法MCPC避免了這些問題。不同于之前的研究,此方法的搜索框架不是基于迭代的,并且利用了基因中的序關(guān)系。

5、因此,不需要擔(dān)心調(diào)整順序的敏感性問題并且不受基因獨(dú)立性假設(shè)的約定。進(jìn)一步的,由于利用了之前研究忽略的許多有效信息,它提高了類型區(qū)別的準(zhǔn)確性并且僅用更少的基因。該算法是基于投影散度和(盤D有效性的概念計(jì)算代表區(qū)分子序列的能力,然后根據(jù)最能區(qū)分樣本的子序列對(duì)樣本進(jìn)行聚類,同時(shí)能找到診斷基因。主要包括下面三個(gè)部分:(1)把微陣列數(shù)據(jù)轉(zhuǎn)化為g宰.sequence模型,并且利用位置矩陣進(jìn)行保存。(2)基于模版驅(qū)動(dòng)的模板方式進(jìn)行子序列枚舉,將問題轉(zhuǎn)化為極大閉模式挖掘問題,為每個(gè)樣本找到最大區(qū)分能力的子序列,在搜索過程中利用了有效的削

6、減策略。(3)根據(jù)每個(gè)樣本的最大區(qū)分能力子序列劃分塊,最后把這些塊聚成K類,同時(shí)發(fā)現(xiàn)診斷基因模式。大量的實(shí)驗(yàn)證明,MCPC比現(xiàn)有的研究方法更有效的提高了表型劃分的準(zhǔn)確度和效率并能夠發(fā)現(xiàn)診斷基因模式,這個(gè)結(jié)果在生物學(xué)和統(tǒng)計(jì)學(xué)是非常有意義的。關(guān)鍵詞:序列模式挖掘;投影聚類;極大閉序列;診斷基因;等價(jià)維組萬方數(shù)據(jù)東北大學(xué)碩士學(xué)住論文AbstractStudy,ProjectionClusteringAbstractAsanimportanthigh-dimensionalclusteringanalysistechniques

7、,projectionclustering,unlikesubspaceclustering.Projectionclusteringrequireasetofmutuallyexclusiveobjectsdivided,it'snotallowedtosharethesameobjectindifferentclusters.Astheresultoftheprojectionclusteringhavegooddifferentiatefeatures,projectionclusteringbegantobeap

8、pliedingeneexpressiondataanalysis,whichusedtodistinguishthespecificphenotype.However,Mostoftheexistingmethodsaddressthechicken..a(chǎn)nd.-eggproblembyaniterativeadj

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。