KNN文本分類及特征加權(quán)算法研究

KNN文本分類及特征加權(quán)算法研究

ID:37371669

大?。?.72 MB

頁數(shù):71頁

時(shí)間:2019-05-22

KNN文本分類及特征加權(quán)算法研究_第1頁
KNN文本分類及特征加權(quán)算法研究_第2頁
KNN文本分類及特征加權(quán)算法研究_第3頁
KNN文本分類及特征加權(quán)算法研究_第4頁
KNN文本分類及特征加權(quán)算法研究_第5頁
資源描述:

《KNN文本分類及特征加權(quán)算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、學(xué)校代號(hào):10532學(xué)號(hào):S11102058密級(jí):普通湖南大學(xué)碩士學(xué)位論文KNN文本分類及特征加權(quán)算法研究堂僮由請(qǐng)厶娃名;吐趕昱逝絲芻壁驅(qū)鲞!揚(yáng)抖坐副熬援墻羞皇僮!信息型堂皇王猩堂暄童些芻整;讓簋扭抖堂皇撞苤詮變握童旦期;2Q!壘生§旦!壘旦詮窒筌堂旦期;2Q!壘生§月2墨旦筌避委員金圭廑!墮塞焦熬援ResearchonKNNTextClassificationandTermWeightingalgorithmbyYEDanB.E.(HainanUniversity)2011Athesissubmittedinpart

2、ialsatisfactionoftheRequirementsforthedegreeofMasterofEngineering1nComputerScienceandTechnologyintheGraduateSchoolofHunanUniversitySupervisorAssociateProfessorYANGKehuaMay,2014湖南大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體己經(jīng)發(fā)

3、表或撰寫的成果作品。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律后果由本人承擔(dān)。作者簽名:眵彳皋日期:2pf1陣6月甲日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)湖南大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。本學(xué)位論文屬于1、保密口,在年解密后適用本授權(quán)書。2、不保密團(tuán)。(請(qǐng)?jiān)?/p>

4、以上相應(yīng)方框內(nèi)打“√”)作者簽名:寧寸丹日期:2口牛年b月中日翮戳:桶鏘聃一w年6月甲日KNN文本分類及特征加權(quán)算法研究摘要隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)量呈指數(shù)級(jí)增長。如何處理如此龐大而急劇增長的海量數(shù)據(jù)成為信息科學(xué)與技術(shù)領(lǐng)域所面臨的一大挑戰(zhàn)。文本分類作為組織和處理海量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以在較大程度上解決信息的紛繁蕪雜問題,幫助用戶快速地檢索、查詢、過濾和利用信息。本文學(xué)習(xí)并研究了文本分類及其相關(guān)技術(shù),詳細(xì)介紹了文本分類處理流程中的各個(gè)環(huán)節(jié),包括:文本預(yù)處理、特征選擇、特征權(quán)重計(jì)算、文本分類算

5、法、性能評(píng)價(jià)。文本分類算法及特征權(quán)重計(jì)算是文本分類過程中比較重要的兩個(gè)問題。特征權(quán)重算法的好壞對(duì)分類結(jié)果的精確度有很大的影響,而分類算法的優(yōu)劣則直接影響分類效率和分類結(jié)果的準(zhǔn)確率。本文主要圍繞這兩個(gè)問題進(jìn)行研究。本文研究內(nèi)容及創(chuàng)新工作主要體現(xiàn)在以下三個(gè)方面:1、TFIDF(TermFrequencyandInverseDocumentationFrequency)JJl權(quán)算法的研究與改進(jìn)。特征詞權(quán)重算法對(duì)文本分類的精確度有著非常重要的影響,TFIDF加權(quán)方法是VSM(VectorSpaceModel)模型下應(yīng)用最廣泛的

6、一種權(quán)重算法。傳統(tǒng)特征權(quán)重算法TFIDF,忽略了特征詞與其他詞語之間的語義聯(lián)系及其在文本集中各個(gè)類別間、類內(nèi)部的分布情況。針對(duì)該問題,本文在信息熵與信息增益的基礎(chǔ)上,加入詞語的語義關(guān)聯(lián),提出了一種結(jié)合語義、信息熵、信息增益的TFIDF改進(jìn)算法(S.TFIDFIGE)。2、KNN(K.NearestNeighbor)分類算法的研究與改進(jìn)。KNN算法是當(dāng)前一種主流文本分類算法,因其實(shí)現(xiàn)簡單、準(zhǔn)確率較高而被廣泛應(yīng)用。但是,KNN算法具有計(jì)算復(fù)雜度高,分類效率較低的缺陷,限制了其在海量文本分類上的應(yīng)用。MapReduce是一個(gè)

7、通用性和可擴(kuò)展性都較強(qiáng)的分布式并行計(jì)算模型,能有效地處理海量數(shù)據(jù)。本文在深入分析了KNN分類算法自身特點(diǎn)及HadoopMapReduce編程模型優(yōu)勢(shì)的基礎(chǔ)上,提出一種基于MapReduce并行的PKNN算法。3、設(shè)計(jì)并進(jìn)行了相關(guān)實(shí)驗(yàn),驗(yàn)證了本文權(quán)重改進(jìn)算法S-TFIDFIGE和分類改進(jìn)算法PKNN的可行性和有效性,且對(duì)改進(jìn)后的S-TFIDFIGE和PKNN算法進(jìn)行了結(jié)合試驗(yàn)。文章提出的S-TFIDFIGE和PKNN算法,不僅能提高文本分類的準(zhǔn)確率,還可以大幅度減少文本分類的時(shí)間,提高文本分類的效率,能適用于處理大規(guī)模文

8、本數(shù)據(jù)分類的實(shí)際應(yīng)用。關(guān)鍵詞:文本分類;TFIDF算法;語義;KNN算法;MapReduceII碩士學(xué)位論文AbstractWiththerapiddevelopmentofinformationtechnologyandInternettechnology,thetextinformationisincreasingexpone

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。