基于knn專利文本分類算法的研究

基于knn專利文本分類算法的研究

ID:34203665

大?。?98.66 KB

頁(yè)數(shù):75頁(yè)

時(shí)間:2019-03-04

基于knn專利文本分類算法的研究_第1頁(yè)
基于knn專利文本分類算法的研究_第2頁(yè)
基于knn專利文本分類算法的研究_第3頁(yè)
基于knn專利文本分類算法的研究_第4頁(yè)
基于knn專利文本分類算法的研究_第5頁(yè)
資源描述:

《基于knn專利文本分類算法的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、萬(wàn)方數(shù)據(jù)中圖分類號(hào):TP391密級(jí):公開UDC:38單位代碼:10460基于KNN的專利文本分類算法研究ResearchofPatentTextClassificationAlgorithmBasedonKNN申請(qǐng)人姓名苑迪文學(xué)位類別工學(xué)碩士計(jì)算機(jī)軟件與理計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)專業(yè)名稱研究方向論導(dǎo)師劉沛騫職稱副教授提交日期2012.4答辯日期2012.6河南理工大學(xué)萬(wàn)方數(shù)據(jù)河南理工大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。論文中除了特別加以標(biāo)注和致謝的地方外,不包含任何其他個(gè)人或集體已經(jīng)公開發(fā)表或撰寫過(guò)的研究成果。

2、其他同志對(duì)本研究的啟發(fā)和所做的貢獻(xiàn)均已在論文中作了明確的聲明并表示了謝意。本人愿意承擔(dān)因本學(xué)位論文引發(fā)的一切相關(guān)責(zé)任。學(xué)位論文作者簽名:年月日河南理工大學(xué)學(xué)位論文使用授權(quán)聲明本學(xué)位論文作者及導(dǎo)師完全了解河南理工大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留和向有關(guān)部門、機(jī)構(gòu)或單位送交論文的復(fù)印件和電子版,允許論文被查閱和借閱,允許將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索和傳播,允許采用任何方式公布論文內(nèi)容,并可以采用影印、縮印、掃描或其他手段保存、匯編、出版本學(xué)位論文。保密的學(xué)位論文在解密后適用本授權(quán)。學(xué)位論文作者簽名:導(dǎo)師簽名:年月日年月日萬(wàn)方數(shù)據(jù)萬(wàn)方數(shù)

3、據(jù)萬(wàn)方數(shù)據(jù)致謝日月如梭,轉(zhuǎn)眼我的研究生生活即將結(jié)束,回想這短短三年的日子,讓我感慨萬(wàn)千。在此,我要特別感謝在讀研期間給過(guò)我關(guān)心和幫助的老師、家人、同學(xué)和朋友。首先,誠(chéng)摯的感謝我的論文指導(dǎo)老師,劉沛騫副教授。在研究生期間,劉老師給予悉心教導(dǎo),從本文的選題、研究等各個(gè)方面都是在劉老師的精心培養(yǎng)下完成的。他善誘的教導(dǎo)和不拘一格的思路,解決問(wèn)題的嚴(yán)謹(jǐn)給予我無(wú)盡的啟迪,成為我一生中不可或缺的寶貴經(jīng)驗(yàn),為今后我從事科研工作奠定了堅(jiān)實(shí)的精神基礎(chǔ)。還有教過(guò)我的老師們,他們給我了一些有益的意見和建議。至此,我對(duì)劉老師和所有教過(guò)我的老師們表示非常的感謝。其次,我要感謝和我一個(gè)實(shí)驗(yàn)室的同學(xué)們

4、、一個(gè)宿舍的舍友們以及我的好朋友們,在朝夕相處的日子里,我們經(jīng)常在一起討論各種問(wèn)題,使我受益菲淺,是他們?cè)谖颐悦:歪葆宓臅r(shí)候給了我勇氣和信心,是他們的關(guān)心和幫助讓我體會(huì)到同學(xué)之間深刻的友誼,論文馬上要結(jié)束了,我向他們說(shuō)一聲謝謝!最后,我要感謝在我撰寫論文期間在我背后默默付出的家人。正是由于他們用無(wú)私的愛(ài)給我創(chuàng)造了一個(gè)溫暖舒適的環(huán)境,才使得我可以專心致志于學(xué)業(yè),沒(méi)有他們不求回報(bào)的付出和始終不渝的支持,我將難以按照計(jì)劃完成本論文,他們的關(guān)懷和期盼是我的動(dòng)力和源泉。本論文凝聚了他們大量的心血和精力,再次對(duì)他們表示深深的謝意。萬(wàn)方數(shù)據(jù)萬(wàn)方數(shù)據(jù)摘要隨著Internet和信息技術(shù)的

5、快速發(fā)展,大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化信息量的急劇增加,如何在最短的時(shí)間內(nèi)獲取自己所需要的信息已成為當(dāng)前我們迫切需要解決的問(wèn)題。目前,專利技術(shù)已成為國(guó)家或地區(qū)間競(jìng)爭(zhēng)力的核心,面對(duì)海量的專利信息,如何利用文本分類技術(shù)來(lái)對(duì)這些專利信息分類已成為大勢(shì)所趨。首先,本文介紹了文本分類的研究現(xiàn)狀以及專利分類背景。其次,系統(tǒng)介紹了文本分類的關(guān)鍵技術(shù)和各種分類算法,以及各種分類算法在不同領(lǐng)域中的應(yīng)用。目前,在眾多分類器當(dāng)中,KNN分類器相對(duì)于其他分類器分類效果較好,但是其依舊存在一些缺點(diǎn),諸如分類速度慢、分類精度低下等。為了克服KNN分類算法的諸缺點(diǎn),本文提出了優(yōu)化的KNN算法分類器,該分

6、類模塊由訓(xùn)練、分類以及評(píng)價(jià)三部分組成。優(yōu)化的KNN算法采用基于簇的原始空間模型對(duì)訓(xùn)練集進(jìn)行處理,首先將訓(xùn)練集中相似的文本形成一簇,把每一簇看作是一個(gè)普通文本,計(jì)算每一簇的中心向量,再設(shè)定一個(gè)閾值,對(duì)高于該閾值的簇進(jìn)行管理,并重新形成訓(xùn)練集。該分類算法在盡量保存原始文本信息的基礎(chǔ)上,根據(jù)文本稀疏性特點(diǎn),本文采用壓縮表示模型的思想,然后做距離的計(jì)算,最后將待測(cè)文本歸屬所屬的類別。這種分類算法不僅減少計(jì)算量,而且提高了KNN分類器的分類速度以及分類精度。最后本文通過(guò)專利分類的實(shí)驗(yàn),對(duì)優(yōu)化KNN算法在專利分類運(yùn)算速率、正確率、錯(cuò)誤率以及召回率方面作評(píng)估,驗(yàn)證了優(yōu)化KNN算法較傳

7、統(tǒng)KNN算法在分類效果上有一定程度的提高。關(guān)鍵詞:文本分類;KNN算法;簇;專利文本分類I萬(wàn)方數(shù)據(jù)II萬(wàn)方數(shù)據(jù)AbstractWiththerapiddevelopmentoftheInternetandinformationtechnology,lotsofsemi-structuredandunstructuredtextinformationgreatlyincreases.However,howtoobtaintheusefulinformationquicklyandaccurately,ithasbecomesanurgent

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。