基于流形學(xué)習(xí)的降維算法

基于流形學(xué)習(xí)的降維算法

ID:33384291

大?。?.24 MB

頁數(shù):110頁

時間:2019-02-25

基于流形學(xué)習(xí)的降維算法_第1頁
基于流形學(xué)習(xí)的降維算法_第2頁
基于流形學(xué)習(xí)的降維算法_第3頁
基于流形學(xué)習(xí)的降維算法_第4頁
基于流形學(xué)習(xí)的降維算法_第5頁
資源描述:

《基于流形學(xué)習(xí)的降維算法》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、ADisertationSubmittedtoZhejiangUniversityfortheDegreofDoctorofPhilosophy⑧TITLE:ReseaPchonD/menSlona1RedUctionbasedonMan/foldLearningAuthor:GuanhongYaoSupervisor:Prof.HujunBaoProf.XiaofeiHeSubject:ComputerSclenceandTechnologyCollege:ComputerSclenceandTechnologySubmitted.Date:Sept.28th-,201

2、3浙江大學(xué)博士畢業(yè)論文致謝首先,我要特別感謝導(dǎo)師鮑虎軍教授。鮑老師對科研的實事求是、對工作的一絲不茍、對學(xué)生的無微不至,都給我留下了非常深刻的印象。鮑老師隨和、謙遜、幽默,高瞻遠(yuǎn)矚的科研意識和豐富的研究經(jīng)驗讓人欽佩使我受益匪淺。鮑老師給予我們寬松愉快的研究環(huán)境、眾多的鍛煉機(jī)會和廣闊的研究平臺,是良師更是益友。感謝何曉飛老師、蔡登老師,他們嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度、敏銳的學(xué)術(shù)眼光、認(rèn)真負(fù)責(zé)的做事方法、以及強(qiáng)烈的責(zé)任感都給予了我深刻的影響。博士期間的研究工作是在何老師和蔡老師的悉心指導(dǎo)和關(guān)懷下完成的。感激之情,無以言表。還要感謝的是實驗室的各位兄弟姐妹們,你們讓實驗室的學(xué)術(shù)研究生活變得

3、豐富多彩,你們不僅為我的科研和生活等各方面帶來了無盡的幫助和支持,同時你們所取得的成就也讓我為和你們在同一個實驗室而感到驕傲。感謝目前實驗室的李成、王華、仝子飛、張德兵、胡堯、張強(qiáng)、張衛(wèi)忠、楊根茂、金仲明、萬波、萬信逸、洪斌、魏龍、趙無暇、靳一凡、祝宇、俞凌、章鑫、林榮華、鄒楚航、彭媛媛、孫方圓等實驗室同胞,在我寫論文時期給我?guī)砗芏嗫鞓罚€有非常感謝已經(jīng)畢業(yè)的張弛原、林悅、林彬彬、陳琰、張節(jié)彌、薛維等同學(xué)。和你們在一起度過這些歲月很開心,謝謝你們!感謝在實驗室里認(rèn)識的其他朋友和前輩:董子龍、關(guān)堯、姜翰青、趙艷丹、曾鳴、趙富凱、章國峰等,謝謝你們的榜樣以及給予的幫助!以及

4、一起并肩作戰(zhàn)的朱珠、袁瑩,還有其他關(guān)心我同學(xué)和朋友們!最后感謝老爸老媽一直以來的關(guān)愛和包容!姚冠紅2013.8.】8浙江大學(xué)博士畢業(yè)論文摘要在面對高維度數(shù)據(jù)的實際問題中,為了解決”維度詛咒”問題,提高數(shù)據(jù)分析精度,我們需要找到數(shù)據(jù)有效的低維表達(dá)。通過對數(shù)據(jù)幾何分布的分析,基于流行學(xué)習(xí)的降維在實際應(yīng)用中取得了成功,有效的避免了高維數(shù)據(jù)所帶來的問題,并使得流形學(xué)習(xí)在機(jī)器學(xué)習(xí)和相關(guān)領(lǐng)域迅速發(fā)展。然而,流形算法領(lǐng)域仍然存在不少問題等待解決。例如,大多數(shù)流形學(xué)習(xí)算法的映射和后續(xù)的學(xué)習(xí)模型沒有直接聯(lián)系,在降維中,并不知道映射會如何影響后續(xù)模型的學(xué)習(xí)效果。其次,許多線性流形降維算法在處

5、理非線性的數(shù)據(jù)時會失去效果。除了以上提到的兩點(diǎn),在利用流形學(xué)習(xí)進(jìn)行降維的過程中,計算復(fù)雜度往往成為實際應(yīng)用的瓶頸。論文圍繞基于流形學(xué)習(xí)的降維展開,并嘗試解決以上提出的流形算法中存在的問題。主要工作包括以下幾個方面:1.提出直接提高模型學(xué)習(xí)效果的基于流形的特征選擇算法。通過結(jié)合流形學(xué)習(xí)以及最優(yōu)實驗設(shè)計理論,我們提出的特征選擇方法能選擇出有利于提高模型學(xué)習(xí)效果的特征點(diǎn)。該算法假設(shè)數(shù)據(jù)點(diǎn)分布在潛在流形之上,考慮原始數(shù)據(jù)包含的幾何分布和區(qū)分性信息,通過求解使模型預(yù)測值最大方差最小化的優(yōu)化問題,選擇數(shù)據(jù)點(diǎn)。由于該問題最后的求解屬于NP問題,我們還介紹了有效的貪婪算法求解該優(yōu)化問題。

6、在此之前也有其他基于最優(yōu)實驗設(shè)計和半正則化流形算法的特征選擇算法,一般是通過最小化預(yù)測模型中參數(shù)的協(xié)方差來選取特征的。和他們相比,我們的算法直接對目標(biāo)函數(shù)的預(yù)測值最大方差的上界進(jìn)行最小化,對學(xué)習(xí)效果的影響更為直接。在數(shù)據(jù)集上用該算法選擇特征之后的聚類實驗證明了算法的有效性。2.為了解決基于流形的非負(fù)矩陣分解計算復(fù)雜度過高的問題,本文提出了新的加速算法。和原始的非負(fù)矩陣分解算法相比,保局非負(fù)矩陣分解算法(LocalityPreservingNon—negativeMatrixFactorization,LPNMF)由于利用了數(shù)據(jù)的流形幾何信息能夠更好的揭示數(shù)據(jù)主題,具有更強(qiáng)

7、的數(shù)據(jù)表達(dá)能力。然而,LPNMF的計算復(fù)雜度為o(n3),n為數(shù)據(jù)點(diǎn)個數(shù),當(dāng)數(shù)據(jù)規(guī)模增加,計II浙江大學(xué)博士畢業(yè)論文摘要算時間將成倍增加。受半監(jiān)督式學(xué)習(xí)規(guī)?;约按笠?guī)模譜聚的啟發(fā),我們提出了LPNMF的加速算法。給定大小為n的數(shù)據(jù)點(diǎn),我們選擇P(P《n)個錨點(diǎn)數(shù)據(jù),并用選擇的錨點(diǎn)數(shù)據(jù)的稀疏表達(dá)來表示原始大數(shù)據(jù)。同時,通過新的表達(dá),在計算迭代過程中,使用Woodbury轉(zhuǎn)化公式減少矩陣計算的時間。從而有效的減少了LPNMF的整體計算時間。實驗證明,在大型的文本數(shù)據(jù)上新的加速算法降維后和原來的聚類效果一樣,所用計算時間比原算法快2

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。