資源描述:
《互聯(lián)網(wǎng)新聞分類中特征選擇和特征提取方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、HHf奪留種違若若大爹」U打iversityofScienceandTech打ologyofGhi打a碩±學(xué)位論文世:,f;v\‘I'挪'?-W<■?-,、論文題互媒網(wǎng)新間分4中特征選擇和目特征嫂取方法研堯王甜甜作者姓名控制科學(xué)與工趕學(xué)科專業(yè)康車敎故蕾洋到敎巧導(dǎo)師姓名二-:六年六月f完成時(shí)間心,--:牛通種緣我術(shù)乂緣碩±學(xué)位論文@互聯(lián)網(wǎng)新聞文本分類中特征選擇和特征提取方法硏究作者姓名:王甜甜
2、學(xué)科專業(yè):控制科學(xué)與控制王程導(dǎo)師姓名:康宇教授曹詳副教授二〇—完成時(shí)間:六年六月*UniversityofScienceandTechnologyofChinaA’化esisformastersdereegI戀ResearchofFeatureSelectionandFeatureExtractionMethodsinInternetNewsClassification’TAuthorsName:iantianWangSpeciality:C
3、ontrolTheoryandControlEngineeringSupervisor:Prof.YuKangAssociateProf.YangCaoFinishedtime:June2016,?中國(guó)科學(xué)技術(shù)大學(xué)學(xué)位論文原創(chuàng)性聲明本人聲明所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)F進(jìn)巧研究工作所取得的成果tA標(biāo),論文中不包含任何他人己經(jīng)發(fā)表或撰寫。除Li特別加注和致謝的地乂外過的研究成果-。與巧同工作的同志對(duì)本研究所做的貢獻(xiàn)均己在論文中作了明確的說(shuō)明。W〇fi巧作者密名:Jri
4、篇字。期:7ri中國(guó)科學(xué)技術(shù)大學(xué)學(xué)位論文授權(quán)使用聲明?作為中巧學(xué)化的條件之,學(xué)化論文著作權(quán)擁巧者授權(quán)中國(guó)科學(xué)技術(shù)火學(xué)擁有學(xué)位論文的部分使用權(quán),即:學(xué)校有權(quán)按巧乂規(guī)定向國(guó)家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被杳閱和借閱,將學(xué)位論文編入有關(guān)數(shù)據(jù),巧U采用影印庫(kù)進(jìn)行檢索、縮印或掃描等復(fù)制乎段保存、匯編學(xué)位論文。本人捉交的電子文檔的內(nèi)容巧紙質(zhì)論文的內(nèi)巧相■致。保密的學(xué)位論文在解密后也遵守此規(guī)定。公開□保密(年)作者簽名:詩(shī)師《名:奪聲—/.錢字U期'簽字口期::^/心心0八
5、摘要摘要近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)中的文本等信息呈爆炸式增長(zhǎng)。對(duì)互聯(lián)網(wǎng)中的新聞文本信息進(jìn)行分類可W快速提取出用戶所需要的信息。因此,如何提高新聞文本分類的高效性和準(zhǔn)確性,提供高質(zhì)量和智能化的新聞文本分類服務(wù)具有重要意義。特征選擇和特征提取是新聞文本降維的主耍手段。常用的特征選擇方法默認(rèn)在均衡數(shù)據(jù)集上進(jìn)行特征選擇,而在偏斜數(shù)據(jù)h表現(xiàn)較差。除此-之外-,己有的文本特征選擇方法往往存在定的缺陷。例如,TFIDF義法選?。崳姷氖欠从澄谋炯系奶卣鳎鴽]有考慮這些特征對(duì)類別的區(qū)分能力:互信息和卡""方
6、檢驗(yàn)方法往往具有低頻詞缺陪的問題。在文本特征提取過程中,向豊巧間模型表示的特征向量具有高維性和稀疏性的特點(diǎn),不能捕捉到特征之間的語(yǔ)義語(yǔ)法關(guān)聯(lián),。針對(duì)己有特征選擇和特征提取方法中存在的t述問題W及文本數(shù)據(jù)普遍存在的類別樣本不均衡問題,本文做了L乂下幾個(gè)方面的工作:1.針對(duì)新聞文本數(shù)據(jù)集存在的類別樣本不均衡問題,本文提出了兩種新的基于方差的特征選擇方法::1)基于類間概率分布方差的互信息特征選擇方法2-基于文檔分布方差的TFIDF特征選揮方法。類間槪率分布方差和文檔分布方)差是每個(gè)特征在不同類別中的詞頻和文檔頻率
7、方差,該方差僅與類別樣本特征有""關(guān),與不同類別樣本數(shù)目無(wú)關(guān)。因此,本文所提方法能夠有效地提取出小類別樣本的特征,,解決類別樣本不均衡問題。實(shí)驗(yàn)結(jié)果表明相比于己有特征選擇方法,本文所提出基于方差的特征選擇方法能夠篩選出新聞熱點(diǎn)詞匯,提高新聞文本分類效果。2.本文在對(duì)互聯(lián)網(wǎng)新聞熱詞的上下文規(guī)律進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ)上,采用指數(shù)衰減模型改進(jìn)Word2vec詞向量訓(xùn)練框架,提高詞向量的精確度。原Word2vec訓(xùn)練框架認(rèn)為t:K文對(duì)目標(biāo)詞預(yù)測(cè)的作用是線性衰減的,而自然語(yǔ)言中上r文對(duì)目標(biāo)詞的影響隨著距離的增加快速減小
8、,指數(shù)衰減模型更接近真實(shí)情況。實(shí)驗(yàn)結(jié),相比于原Word2vec詞向量訓(xùn)練框架果表明,本文采用的基于指數(shù)衰減梭型改進(jìn)的Word2vec詞向量訓(xùn)練框架pJL川II練出史化精確的詞向增。