資源描述:
《多標記維度約減和分類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、多標記維度約減和分類算法研究重慶大學(xué)碩士學(xué)位論文(學(xué)術(shù)學(xué)位)學(xué)生姓名:燕凱指導(dǎo)教師:唐朝偉教授專業(yè):通信與信息系統(tǒng)學(xué)科門類:工學(xué)重慶大學(xué)通信工程學(xué)院二O一四年六月ResearchontheDimensionalityReductionandClassificationAlgorithmsinMulti-LabelLearningAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMaster’sDegreeofEngineeringByKaiYanSupervisedbyProf.Cha
2、oweiTangSpecialty:CommunicationandInformationSystemCollegeofCommunicationEngineeringofChongqingUniversity,Chongqing,ChinaJune,2014重慶大學(xué)碩士學(xué)位論文中文摘要摘要多標記學(xué)習(xí)來源于文本分類問題的研究,現(xiàn)實生活中很多基于機器學(xué)習(xí)的問題都可以看作是多標記學(xué)習(xí)。傳統(tǒng)監(jiān)督學(xué)習(xí)中每個示例僅僅具有單個標記,但是多標記學(xué)習(xí)中每個示例擁有多個標記。為了提高多標記學(xué)習(xí)中分類的準確率,示例的大量原始特征被采集,導(dǎo)致輸入空間維數(shù)非常高,從而造成“維數(shù)災(zāi)難”問題。因此,如何從輸入空間的高維
3、特征向量中獲取有效的低維數(shù)據(jù),對于提高多標記分類問題的準確率有重要意義。本文的研究重點是多標記分類中的維度約減算法和多標記分類算法。本文主要工作內(nèi)容如下:(1)介紹多標記學(xué)習(xí)、常見的維度約減算法和流形學(xué)習(xí)算法。流形學(xué)習(xí)算法能夠從高維特征向量數(shù)據(jù)中獲取低維流形結(jié)構(gòu),并且從高維特征向量數(shù)據(jù)映射到低維特征空間時,能夠保留高維數(shù)據(jù)中局部鄰域間的相互關(guān)系。但是局部線性嵌入流形學(xué)習(xí)(LocallyLinearEmbedding,LLE)算法的近鄰點個數(shù)是固定的,不能剔除流形中的小規(guī)模結(jié)構(gòu)和不能避免將連續(xù)的流形分割為不相關(guān)的子流形。因此,如何選取近鄰點個數(shù)成為一個重要的問題。(2)研究了在已標記數(shù)據(jù)比較少
4、但是未標記數(shù)據(jù)大量存在的場景下,多標記分類正確率不高的問題。由于實際場景中輸入空間的高維特征向量數(shù)據(jù)僅有少量被標記,大部分數(shù)據(jù)都沒有標記。為了有效去除冗余特征并使用大量未標記樣本所提供的潛在信息,需要使用半監(jiān)督學(xué)習(xí)方法。為了能夠利用類別已知的示例的監(jiān)督信息,又利用大量類別未知的示例的統(tǒng)計信息進行維度約減;并且確定合適的近鄰點個數(shù),本文提出一種可變K近鄰半監(jiān)督局部線性嵌入流形維度約減算法(VariableK-NearestSemi-SupervisedLocallyLinearEmbedding,VKSSLLE)。(3)探討多標記分類問題中出現(xiàn)的數(shù)據(jù)分類性能不理想的問題,并提出一種基于VKSS
5、LLE維度約減算法的多標記樸素貝葉斯分類算法。該方法通過使用可變K近鄰半監(jiān)督流形學(xué)習(xí)算法進行維度約減,并引入樸素貝葉斯分類器進行多標記分類,從而提高多標記分類的準確率。利用不同維度約減算法與樸素貝葉斯分類器相結(jié)合,作用于不同的數(shù)據(jù)集進行實驗,結(jié)果表明基于VKSSLLE維度約減算法的多標記樸素貝葉斯分類算法能夠更好地提高多標記分類的準確率。關(guān)鍵字:多標記分類,多標記維度約減,樸素貝葉斯分類器,流形學(xué)習(xí),半監(jiān)督學(xué)習(xí)I重慶大學(xué)碩士學(xué)位論文英文摘要ABSTRACTMulti-labellearningcomesfromtextclassification,andmanyreal-worldprobl
6、emsbasedonmachinelearningfallintothecategoryofmulti-labellearning.Differentfromtraditionalsupervisedlearningmethodswhichassumethateachinstanceisassociatedwithonlyoneclasslabel,oneinstanceinmulti-labellearningusuallybelongstomultiplelabelssimultaneously.Numerousoriginalfeaturesshouldbesampledtoenhan
7、cetheaccuracyofmulti-labellearning,whichresultsin‘curseofdimensionality’problem.Theaccuracyoflearningalgorithmswillbeseverelydegeneratedduetothisproblem.Thus,howtoobtaineffectivelow-dimensionaldatafromhigh-