資源描述:
《基于標記間相關(guān)性的多標記分類算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、中圖分類號!里3窆lUDC620碩士學位論文學校代碼!Q533密級公玨基于標記間相關(guān)性的多標記分類算法Multi—labelClassificationAlgorithmBasedonLabels’Correlation作者姓名學科專業(yè)研究方向?qū)W院(系、所)指導(dǎo)教師論文答辯日期查!!:墮!:高振華:計算機科學與技術(shù):數(shù)據(jù)挖掘:信息科學與工程學院:李宏教授中南大學二零一三年四月一夸一二,牛四月原創(chuàng)性聲明本人聲明,所呈交的學位論文是本人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。盡我所知,除了論文中特另tlDH以標注和致謝的地方外,論文中不
2、包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得中南大學或其它單位的學位或證書而使用過的材料。與我共同工作的同志對本研究所作的貢獻均已在論文中作了明確的說明。作者簽名:齏運竺日期:』奎址年[月4日學位論文版權(quán)使用授權(quán)書本人了解中南大學有關(guān)保留、使用學位論文的規(guī)定,即:學校有權(quán)保留學位論文并根據(jù)國家或湖南省有關(guān)部門規(guī)定送交學位論文,允許學位論文被查閱和借閱;學??梢怨紝W位論文的全部或部分內(nèi)容,可以采用復(fù)印、縮印或其它手段保存學位論文。同時授權(quán)中國科學技術(shù)信息研究所將本學位論文收錄到《中國學位論文全文數(shù)據(jù)庫》,并通過網(wǎng)絡(luò)向社會公眾提供
3、信息服務(wù)。踅吼絲年三衄基于標記間相關(guān)性的多標記分類算法摘要:隨著信息技術(shù)的發(fā)展,多標記分類方法的應(yīng)用也越來越廣泛,現(xiàn)有的多標記算法一般沒有充分學習標記之間的相關(guān)信息,而標記之間的信息對提高算法的分類性能很有幫助,所以有必要對多標記學習中標記相關(guān)性進行深入研究。MLkNN算法在多標記分類算法中擁有良好的性能,但其由于沒有考查標記之間的相關(guān)性,因而算法性能還有進一步提升空間。本文將對MLkNN算法的后驗概率公式進行改進,使其融合多標記之間相關(guān)信息,形成算法MRkNN。預(yù)先對數(shù)據(jù)集聚類,在聚類形成后的簇上再使用MRkNN算法進行預(yù)測,實驗結(jié)果
4、證明聚類后考查標記相關(guān)性的方法較大地提升了算法的準確率。KNN分類算法并不要求得出顯式的規(guī)則,KNN算法一般較其他的分類算法有較高的分類準確率。鑒于KNN算法在分類上的優(yōu)勢,非條件類標之間相關(guān)性促進效果較小,以及條件類標相關(guān)性考查較復(fù)雜。本文提出一種基于K近鄰分布條件下考察標記相關(guān)性的算法。在不同的k近鄰的分布情況下,類標之間表現(xiàn)出不同的相關(guān)程度。實驗證明在k近鄰分布條件下學習多標記之間的相關(guān)性擁有比MLkNN算法更好的算法性能;并對不同的k取值對算法性能的影響進行了分析得出不同的數(shù)據(jù)集最優(yōu)的K的選擇是不同的,不同的算法受k值影響不同。
5、本文對條件標記相關(guān)性和局部標記相關(guān)性的研究為多標記學習中的標記相關(guān)性考查方法提供了有益的思路。關(guān)鍵詞:K近鄰;多標記分類;標記相關(guān)性;最優(yōu)k值分類號:TP391Multi—labelClassificationAlgorithmBasedonLabels’CorrelationAbstract:Withthedevelopmentofinformationtechnology,multi—labelclassificationmethodsarewidelyapplying,however,existingmulti-labelalgo
6、rithmsdonotconsidertheinformationofrelationshipbetweenlabels.buttheinformationisveryhelpfultoimprovetheperformanceofclassifier,SOitiSnecessarytoconductthethoroughresearchtothecorrelationbetweenlabels.MLKNNiSoneclassicmulti.1abelclassificationalgorithmwhichhasagoodperform
7、ance,buttheperformanceofitCallbeimprovedbecauseofthemissingofconsideringthecorrelationbetweenlabels.ThisthesisimprovesMLKNNbymodifyingtheposterioriprobabilityandconsideringthecorrelationbetweenlabels.Itclustersthedatasetintosomeclustersfirstly,andthenappliestheimprovedML
8、l心烈algorithmineachcluster.Experimentshowsthattheimprovedmethodsignificantlyimprovedtheaccuracyofthealgo