svm-knn組合改進算法在專利文本分類中的應(yīng)用

svm-knn組合改進算法在專利文本分類中的應(yīng)用

ID:12302376

大小:36.50 KB

頁數(shù):13頁

時間:2018-07-16

svm-knn組合改進算法在專利文本分類中的應(yīng)用_第1頁
svm-knn組合改進算法在專利文本分類中的應(yīng)用_第2頁
svm-knn組合改進算法在專利文本分類中的應(yīng)用_第3頁
svm-knn組合改進算法在專利文本分類中的應(yīng)用_第4頁
svm-knn組合改進算法在專利文本分類中的應(yīng)用_第5頁
資源描述:

《svm-knn組合改進算法在專利文本分類中的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、SVM-KNN組合改進算法在專利文本分類中的應(yīng)用SVM-KNN組合改進算法在專利文本分類中的應(yīng)用李程雄-丁月華z文貴華2(廣東粵華發(fā)電有限責任公司信息分部,廣州510731)(華南理工大學計算機應(yīng)用工程研究所,廣州510640)E—mail:Lexl218@21on.COrn摘要提出了基于支持向量機的專利文本分類器的總體設(shè)計方案和實現(xiàn)方法;提出并分析了該分類器的改進算法SVM-KNN組合改進算法.文章對兩種算法進行了大量的實驗并對實驗結(jié)果進行比較分析,在此基礎(chǔ)上得出了三個結(jié)論.關(guān)鍵詞支持向量杌KNN專利分類最優(yōu)分類

2、面文章編號1002—8331一(2006)20—0193-03文獻標識碼A中圖分類號TP181ApplicationofSVM-KNNCombinationImprovementAlgorithmonPatentTextClassificationLiChengxiongDingYuehuazWenGuiima2(InformationDivision,GuangdongYuehuaPowerCompanyLTD.,Guangzhou510731)(ResearchInstituteofComputerApplic

3、ation,SouthChinaUniversityofTechnology,Guangzhou510640)Abstract:Itnarratestheoveralldesignplanandimplementationmethodofpatenttextclassificationmachineresultingfromsupportvectormachine;proposesandanalyzesitsimprovementalgorithmSVM-KNNcombinationimprovementalgor

4、ithm;andagreatdealoftestsonclassificationmachinearecarriedouttotwoalgorithmsandthetestingresultsarecomparedandanalyzed.drawsth/~econclusionsinthisfoundation.Keywords:supportvectormachine,KNN,patentclassification,optimalhyperplane在當今全球化經(jīng)濟的時代.專利技術(shù)已成為國家或地區(qū)競爭力的核心,

5、專利知識產(chǎn)權(quán)越來越受到企業(yè)的重視.因此,近幾年的專利申請量迅速增長.但是目前專利分類仍是采用傳統(tǒng)的手工分類,這種分類的方法效率低下,存在許多弊端.如周期長,費用高,效率低.分類結(jié)果一致性不高等問題.專利申請量的激增一方面增加了對快速,自動文本分類的迫切需求,另一方面又為基于數(shù)據(jù)挖掘技術(shù)的文本分類方法準備了充分的資源.因此.計算機輔助專利分類成為大勢之所趨【】1.當前對支持向量機的研究是一個熱點,支持向量機是基于統(tǒng)計學習理論的機器學習方法,有一套堅實的理論基礎(chǔ).遺憾的是.雖然支持向量機在理論上有很突出的優(yōu)勢,但與其理

6、論研究相比.應(yīng)用研究尚相對比較滯后.目前只有比較有限的實驗研究報道.且多屬仿真和對比實驗.研究目前利用支持向量機實現(xiàn)文本分類的現(xiàn)狀可以發(fā)現(xiàn).雖然存在很多這樣的應(yīng)用系統(tǒng),但分類對象都是新聞資料或網(wǎng)頁資料,而對于應(yīng)用于中國專利的分類則還沒有.所以這也是本文的一個創(chuàng)新點佇l(wèi).但目前在SVM的應(yīng)用中還存在一些問題.如對不同的應(yīng)用問題核函數(shù)參數(shù)的選擇較難,對較復雜問題其分類精度不是很高以及對大規(guī)模分類問題訓練時間長等.已有的解決方法包括建立分類性能的評價函數(shù).然后對SVM中的核函數(shù)的參數(shù)進行優(yōu)化.或者使用直推方法對給定待樣本

7、設(shè)計最優(yōu)的SVM;所有這些方法的設(shè)計和計算都非常復雜,實現(xiàn)的代價都很高.因此系統(tǒng)采用了SVM—KNN組合算法對分類器進行改進.并取得了一定的效果.1SVM—KNN(KSVM算法)組合改進算法介紹有關(guān)支持向量機的基本知識和原理可以參考文獻【3~6】.近鄰法(簡稱NN)是模式識別非參數(shù)法中最重要的方法之一,NN的一個很大特點是將各類中全部樣本點都作為"代表點".INN是將所有訓練樣本都作為代表點.因此在分類時需要計算待識別樣本到所有訓練樣本的距離.分類結(jié)果就是與最近的訓練樣本所屬于的類別.KNN是INN的推廣.即分類時

8、選出的k個最近鄰,看這k個近鄰中的多數(shù)屬于哪一類.就把分到哪一類.我們對SVM分類時錯分樣本的分布進行分析發(fā)現(xiàn).SVM分類器和其它的分類器一樣.其出錯樣本點都在分界面附近.這提示我們必須盡量利用分界面附近所提供的信息以提高分類性能.由SVM理論知道,分界面附近的樣本基本上都是支持向量.同時SVM可以看成每類只有一個代表點的最近鄰(NearstNeighhou

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。