資源描述:
《半監(jiān)督聚類與分類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號學(xué)號D201077542學(xué)校代碼10487密級博士學(xué)位論文半監(jiān)督聚類與分類算法研究學(xué)位申請人:甘海濤學(xué)科專業(yè):控制科學(xué)與工程指導(dǎo)教師:桑農(nóng)教授答辯日期:2014年5月萬方數(shù)據(jù)AThesisSubmittedinPartialFul?llmentoftheRequirementsfortheDegreeofDoctorofPhilosophyinEngineeringResearchonsemi-supervisedclusteringandclassi?cationalgorithmPh.D.Candidate
2、:GanHaitaoMajor:ControlScienceandEngineeringSupervisor:Prof.SangNongHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaMay,2014萬方數(shù)據(jù)獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師的指導(dǎo)下進行的研究工作及取得的研究成果。盡我所知,除文中已標(biāo)明引用的內(nèi)容外,本論文不包含任何其他人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻的個人和集體,均已在文中以明確方式標(biāo)明。本人
3、完全意識到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□,在年解密后適用本授權(quán)書。本論文屬于不保密□?!蹋ㄕ堅谝陨戏娇騼?nèi)打“”)學(xué)位論文作者簽名:指導(dǎo)教師簽名:日期:年月日日期:年月日萬方數(shù)據(jù)華中科技大學(xué)博士
4、學(xué)位論文摘要機器學(xué)習(xí)是人工智能的重要研究課題之一,已廣泛應(yīng)用于自然語言處理、生物特征識別、計算機視覺和手寫數(shù)字識別等領(lǐng)域。傳統(tǒng)的機器學(xué)習(xí)包括有監(jiān)督和無監(jiān)督兩種學(xué)習(xí)方式。監(jiān)督學(xué)習(xí)需要大量的標(biāo)記樣本以學(xué)習(xí)一個好的分類器,并利用該分類器對未見樣本進行類別判斷和預(yù)測。但是當(dāng)標(biāo)記樣本較少時,所獲得分類器的泛化能力往往較差,而且樣本的標(biāo)記過程既耗時又費力。而無監(jiān)督學(xué)習(xí)由于沒有標(biāo)記樣本導(dǎo)致了學(xué)習(xí)過程的盲目性,可能無法取得理想的結(jié)果。因此,如何充分利用少量的標(biāo)記樣本和大量的未標(biāo)記樣本獲得較好的學(xué)習(xí)器,即半監(jiān)督學(xué)習(xí),己成為機器學(xué)習(xí)中最
5、受關(guān)注的方向之一。半監(jiān)督學(xué)習(xí)包含半監(jiān)督聚類、半監(jiān)督分類和半監(jiān)督回歸三種學(xué)習(xí)方式,本文在分析了半監(jiān)督學(xué)習(xí)算法的研究現(xiàn)狀及存在問題的基礎(chǔ)上,對半監(jiān)督聚類和分類算法進行了研究。首先,將流形假設(shè)引入到半監(jiān)督聚類算法中,提出了一種基于流形結(jié)構(gòu)的半監(jiān)督混合高斯模型,該算法依據(jù)標(biāo)記和未標(biāo)記樣本的局部一致性,利用Kullback-Leibler散度構(gòu)建?近鄰圖以挖掘出樣本的內(nèi)在流形結(jié)構(gòu),并將流形結(jié)構(gòu)以圖正則化的形式與先驗信息分別加入到混合高斯模型的目標(biāo)函數(shù)中,最后通過EM算法求解獲得最優(yōu)參數(shù)。在仿真和實際數(shù)據(jù)上的實驗結(jié)果表明了本算法
6、的有效性,同時在圖像分割上的實驗進一步說明了本算法具有一定的實用性。其次,考慮到核最小平方誤差算法的性能嚴重依賴于標(biāo)記樣本的數(shù)量,因此本文將流形假設(shè)應(yīng)用于該算法中,提出了一種基于拉普拉斯正則化的半監(jiān)督核最小平方誤差算法。通過構(gòu)造?近鄰圖挖掘出標(biāo)記和未標(biāo)記樣本的內(nèi)在流形結(jié)構(gòu),并采用圖拉普拉斯算子構(gòu)建流形正則項,嵌入到核最小平方誤差算法的目標(biāo)函數(shù)中,從而實現(xiàn)半監(jiān)督分類算法。在標(biāo)準(zhǔn)數(shù)據(jù)集和人臉識別上的實驗結(jié)果表明本算法能有效地處理標(biāo)記樣本較少的問題,同時獲得一個較好的分類器。然后,提出了一種基于聚類分析的自訓(xùn)練分類算法,該
7、算法將聚類算法嵌入到自訓(xùn)練分類算法中,其基本思想是利用半監(jiān)督聚類算法盡量挖掘出標(biāo)記和未標(biāo)記樣本的結(jié)構(gòu)信息,并結(jié)合所得到的結(jié)構(gòu)信息預(yù)選擇出高置信度樣本,然后用判別式分I萬方數(shù)據(jù)華中科技大學(xué)博士學(xué)位論文類器從預(yù)選擇樣本集中選擇高置信度樣本。相比于自訓(xùn)練分類算法,本算法一定程度上彌補了僅用標(biāo)記樣本帶來的信息不足。仿真實驗表明,當(dāng)標(biāo)記樣本覆蓋的空間與真實數(shù)據(jù)空間不一致時,本算法能獲得較好的泛化能力。實際數(shù)據(jù)的實驗結(jié)果更進一步說明了本算法的有效性和魯棒性。最后,提出了一種基于半監(jiān)督降維技術(shù)和仿射傳播算法的自訓(xùn)練分類算法,該算法
8、將降維方法嵌入到自訓(xùn)練分類算法中,采用半監(jiān)督降維技術(shù)能有效地解決標(biāo)記樣本較少情況下數(shù)據(jù)的維數(shù)災(zāi)難問題,同時相比于選擇均值模板或者?均值聚類算法得到的模板,利用仿射傳播算法選擇得到的代表性樣本是真實存在而不是虛構(gòu)的,作為最近鄰分類器的模板能更好地處理非高斯分布的數(shù)據(jù)。本文將該算法應(yīng)用于人臉識別中,實驗結(jié)果表明該算法具有較好的高維數(shù)據(jù)處理能力和較高