資源描述:
《基因微陣列數(shù)據(jù)的分析算法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、堆
2、大I微陣列數(shù)據(jù)的分析算法摘爨基因微陣列數(shù)據(jù)的分析算法中文摘要基因微陣列(又稱(chēng)基因芯片)可應(yīng)用對(duì)于不同發(fā)展階段,不同人體組織,不同臨床條件以及不同生物體等條件下的基因表達(dá)水平的測(cè)量?;蛐酒某霈F(xiàn)正在給生命科學(xué)研究、疾病診斷、新藥丌發(fā)、食品衛(wèi)生監(jiān)督等領(lǐng)域帶來(lái)一場(chǎng)革命。與此同時(shí),由基因微陣列技術(shù)帶來(lái)的海量數(shù)據(jù)也對(duì)傳統(tǒng)的信息處理技術(shù)帶來(lái)了很大的挑戰(zhàn)。鑒于此,本文對(duì)基因微陣列的預(yù)處理和聚類(lèi)算法進(jìn)行了研究。本文的主要貢獻(xiàn)如下:首先,提出了一種改進(jìn)的穩(wěn)健Lowcss算法,對(duì)基因微陣列的數(shù)掘進(jìn)行標(biāo)準(zhǔn)化處理。該算法首先利用局部加權(quán)線性回歸對(duì)數(shù)據(jù)點(diǎn)進(jìn)行平滑估計(jì),然后再利用核估計(jì)算法對(duì)誤差項(xiàng)進(jìn)行估計(jì),以進(jìn)一步
3、減小誤差,最后對(duì)每個(gè)格子罩的數(shù)據(jù)點(diǎn)進(jìn)行縮放處理。實(shí)驗(yàn)證明了本文算法的高效性。其次,本文提出了一種新的基因表達(dá)矩陣的缺失值估計(jì)算法。該算法首先利用迭代的K-means算法來(lái)挑選無(wú)缺失基因,再用James-Stein估計(jì)算法并結(jié)合核估計(jì)算法得出最后的估計(jì)值。實(shí)驗(yàn)證明該算法在低缺失率的時(shí)候優(yōu)于其它傳統(tǒng)估計(jì)算法。再次,本文對(duì)模糊譜雙向聚類(lèi)算法進(jìn)行了改進(jìn)。雖然模糊譜雙向聚類(lèi)算法能夠取得不錯(cuò)的效果,但是由于其使用的FCM算法對(duì)數(shù)據(jù)類(lèi)型的敏感性及其局部搜索能力,限制了它的使用,因此本文應(yīng)用GG算法和遺傳算法來(lái)改進(jìn)原算法的局限性。實(shí)驗(yàn)證明本文改進(jìn)算法的優(yōu)越性。最后,本文提出了一種基于基因和條件提取的雙向聚類(lèi)算
4、法。該算法利用央角余弦法排除那些對(duì)聚類(lèi)結(jié)果貢獻(xiàn)小的表達(dá)數(shù)據(jù),使得聚類(lèi)只在提取的基因和條件中進(jìn)行,從而降低了計(jì)算復(fù)雜度。實(shí)驗(yàn)證明本文算法優(yōu)于其它算法。關(guān)鍵詞:基因微陣列;標(biāo)準(zhǔn)化;James-Stein估計(jì);核估計(jì);雙向聚類(lèi)作者:嚴(yán)德春指導(dǎo)教師:王加俊AlgorithmsforGeneMicroarrayDataAnalysisAbstractGeneMicroarray(alsoreferredtoasGenechips)canbeusedinmeasunnggeneexpressionlevelsindifferentdevelopmentalstages,differentbodytissu
5、es,differentclinicalconditionsanddifferentorganisms,etc.Genechipsarenowbringingagreatrevolutlonmthefieldsoflifescienceresearch,diseasediagnosis,newdrugdevelopmentandfoodhygienesupervision.Meanwhile,themassiveGeneMicroarraydataalsobringg刪challengestothetraditionaltechniquesofinformationprocessing.The
6、refore,thisthesisfocusesondevelopingalgorithmsforpre-processingandbiclusteringoftheGeneMicroarraydata.Thecontributionsofthisthesisareasfollows:Firstly,鋤improvedversionoftherobustLowessnormalizationisproposedfortheno咖alizationoftheGeneMicraoarraydata.Inthisalgorithm,thedataarefirstlysmoothedwiththelo
7、callyweightedlinearregressionmethod,thentheerrorisfunher砌ucedbyestimatingtheresidueinsmoothingestimationinaframeworkofkemelestimation.finally,scalingoperationisperformedwithrespecttoeachdatap0Intonthegrid.Experimentalresultsshowbotheffectivenessandefficiencyofthisalg耐thm·Secondly'anovelstrategyfores
8、timatingthemissingdatainthegeneexpresslonm撕xispresented.ThealgorithmisbasedontheJames--Steinandkernelestlmatlonprincipleswheretheestimationmatrixisobtainedwiththek-meansalgorithm·ExperimentalresuItssh