資源描述:
《基于小波的腫瘤基因表達(dá)數(shù)據(jù)聚類分析模型》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第17卷第5期(自然科學(xué)版)Vol.17No.52011年10月JOURNALOFSHANGHAIUNIVERSITY(NATURALSCIENCE)Oct.2011doi:10.3969/j.issn.10072861.2011.05.010基于小波的腫瘤基因表達(dá)數(shù)據(jù)聚類分析模型黃文佳,馮鐵男,王翼飛(上海大學(xué)理學(xué)院,上海200444)摘要:運用小波的降噪性建立一種基于腫瘤基因表達(dá)譜的聚類分析模型,采用小波變換、信息抽取、雙向聚類的方法對基因表達(dá)譜進(jìn)行有效的分析.通過這種模型,可以降低基因表達(dá)譜的噪音以及樣本錯聚率.最后,將該方法應(yīng)用于結(jié)腸癌基因表達(dá)譜的分析.關(guān)鍵詞:基因表達(dá)數(shù)據(jù);小波
2、變換;特異表達(dá)基因;聚類分析中圖分類號:O235文獻(xiàn)標(biāo)志碼:A文章編號:10072861(2011)05062407WaveletBasedClusterAnalysisModelofTumorGeneExpressionDataHUANGWenjia,FENGTienan,WANGYifei(CollegeofSciences,ShanghaiUniversity,Shanghai200444,China)Abstract:Thispaperintroducesamodelofclusteringanalysisoftumorgenedataexpressionusingwa
3、veletfornoisereduction.Themodelanalyzesthegeneexpressiondataeffectivelyusingthemethodsofwavelettransfer,dataminingandcoupledtwowayclustering.Withthismodel,noiseinthegeneexpressiondatacanbereducedandaccuracyofsampleclassificationcanbeincreased.Themodelisappliedtotheanalysisofgeneexpressiondataofco
4、lon.Keywords:geneexpressiondata;wavelettransformation;specificexpressedgenes;clusteranalysis基因芯片(genechips)是目前最主要的且發(fā)展表達(dá)數(shù)據(jù),該技術(shù)已被廣泛應(yīng)用于生物醫(yī)學(xué)、疾病診[1][2]最早、最快的生物芯片.將待測樣本標(biāo)記后與基因斷和藥物篩選等多個領(lǐng)域.由于基因表達(dá)的信號芯片進(jìn)行雜交,經(jīng)激光共聚焦熒光掃描儀掃描,通過值常常受到噪音的污染,而傳統(tǒng)的研究方法無法將其電腦系統(tǒng)處理、分析即可得到相應(yīng)的信號值.信號值去除,因此經(jīng)常在發(fā)現(xiàn)特異表達(dá)基因時出現(xiàn)較高的假代表了結(jié)合在探針上的待測樣本中特定
5、大分子的信陽性,降低了樣本聚類的準(zhǔn)確率,并且對研究基因表息,從而可檢測對應(yīng)片段是否存在及存在量的多少.達(dá)模式、提取分類特征基因等帶來了一定的困難.狹義的基因芯片又叫DNA微陣列(DNAmicroarray),小波變換(wavelettransformation)是空間(時間)主要包括cDNA微陣列和寡核苷酸微陣列.和頻率的局部變換,因而能有效地從信號中提取信DNA芯片技術(shù)作為一種高通量的基因表達(dá)分息,通過伸縮和平移等運算功能,可對函數(shù)或信號進(jìn)析平臺,通過一次試驗就能獲得成千上萬個基因的行多尺度的細(xì)化分析,特別適用于非穩(wěn)定信號的信收稿日期:20100111基金項目:國家自然科學(xué)基金資助項
6、目(30871341);上海市重點學(xué)科建設(shè)資助項目(S30104);上海市教委重點學(xué)科建設(shè)資助項目(J50101)通信作者:王翼飛(1948~),男,教授,博士生導(dǎo)師,研究方向為計算分子生物學(xué).Email:yifei_wang@staff.shu.edu.cn第5期黃文佳,等:基于小波的腫瘤基因表達(dá)數(shù)據(jù)聚類分析模型625[3]息提?。疄榻鉀Q聚類過程中存在的一些問題,本研究通過對基因表達(dá)數(shù)據(jù)進(jìn)行小波變換,降低表達(dá)值中的噪音,從而為提取出基本信息建立了一種新的聚類分析模型.通過該模型選取的特異表達(dá)基因,對于腫瘤樣本的分類、腫瘤疾病的診斷和治療都具有重要意義.1聚類分析模型1.1傳統(tǒng)的腫瘤聚類
7、分析模型[4]腫瘤聚類分析模型假設(shè)具有相同或相似表達(dá)模式的基因功能相同或相近,因此通過聚類分析可以將基因分為不同的類型,同時選取出少量的特異表達(dá)基因?qū)颖具M(jìn)行聚類.腫瘤聚類分析模型的主要流程如下:①獲取基因表達(dá)數(shù)據(jù),并對數(shù)據(jù)進(jìn)行預(yù)處理和歸一化;②依次計算每個基因的綜合屬性,將每個基因在不同樣本中的表達(dá)值轉(zhuǎn)化為一個數(shù)值;③選取少量的特異表達(dá)基因,選擇一種聚類分析方法對基因和樣本分別進(jìn)行聚類,將表達(dá)模式相似的基因聚為一類,這