資源描述:
《svm-knn組合改進算法在專利文本分類中的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、SVM-KNN組合改進算法在專利文本分類中的應(yīng)用SVM-KNN組合改進算法在專利文本分類中的應(yīng)用李程雄-丁月華z文貴華2(廣東粵華發(fā)電有限責任公司信息分部,廣州510731)(華南理工大學計算機應(yīng)用工程研究所,廣州510640)E—mail:Lexl218@21on.COrn摘要提出了基于支持向量機的專利文本分類器的總體設(shè)計方案和實現(xiàn)方法;提出并分析了該分類器的改進算法SVM-KNN組合改進算法.文章對兩種算法進行了大量的實驗并對實驗結(jié)果進行比較分析,在此基礎(chǔ)上得出了三個結(jié)論.關(guān)鍵詞支持向量杌KNN專利分類最優(yōu)分類
2、面文章編號1002—8331一(2006)20—0193-03文獻標識碼A中圖分類號TP181ApplicationofSVM-KNNCombinationImprovementAlgorithmonPatentTextClassificationLiChengxiongDingYuehuazWenGuiima2(InformationDivision,GuangdongYuehuaPowerCompanyLTD.,Guangzhou510731)(ResearchInstituteofComputerApplic
3、ation,SouthChinaUniversityofTechnology,Guangzhou510640)Abstract:Itnarratestheoveralldesignplanandimplementationmethodofpatenttextclassificationmachineresultingfromsupportvectormachine;proposesandanalyzesitsimprovementalgorithmSVM-KNNcombinationimprovementalgor
4、ithm;andagreatdealoftestsonclassificationmachinearecarriedouttotwoalgorithmsandthetestingresultsarecomparedandanalyzed.drawsth/~econclusionsinthisfoundation.Keywords:supportvectormachine,KNN,patentclassification,optimalhyperplane在當今全球化經(jīng)濟的時代.專利技術(shù)已成為國家或地區(qū)競爭力的核心,
5、專利知識產(chǎn)權(quán)越來越受到企業(yè)的重視.因此,近幾年的專利申請量迅速增長.但是目前專利分類仍是采用傳統(tǒng)的手工分類,這種分類的方法效率低下,存在許多弊端.如周期長,費用高,效率低.分類結(jié)果一致性不高等問題.專利申請量的激增一方面增加了對快速,自動文本分類的迫切需求,另一方面又為基于數(shù)據(jù)挖掘技術(shù)的文本分類方法準備了充分的資源.因此.計算機輔助專利分類成為大勢之所趨【】1.當前對支持向量機的研究是一個熱點,支持向量機是基于統(tǒng)計學習理論的機器學習方法,有一套堅實的理論基礎(chǔ).遺憾的是.雖然支持向量機在理論上有很突出的優(yōu)勢,但與其理
6、論研究相比.應(yīng)用研究尚相對比較滯后.目前只有比較有限的實驗研究報道.且多屬仿真和對比實驗.研究目前利用支持向量機實現(xiàn)文本分類的現(xiàn)狀可以發(fā)現(xiàn).雖然存在很多這樣的應(yīng)用系統(tǒng),但分類對象都是新聞資料或網(wǎng)頁資料,而對于應(yīng)用于中國專利的分類則還沒有.所以這也是本文的一個創(chuàng)新點佇l(wèi).但目前在SVM的應(yīng)用中還存在一些問題.如對不同的應(yīng)用問題核函數(shù)參數(shù)的選擇較難,對較復雜問題其分類精度不是很高以及對大規(guī)模分類問題訓練時間長等.已有的解決方法包括建立分類性能的評價函數(shù).然后對SVM中的核函數(shù)的參數(shù)進行優(yōu)化.或者使用直推方法對給定待樣本
7、設(shè)計最優(yōu)的SVM;所有這些方法的設(shè)計和計算都非常復雜,實現(xiàn)的代價都很高.因此系統(tǒng)采用了SVM—KNN組合算法對分類器進行改進.并取得了一定的效果.1SVM—KNN(KSVM算法)組合改進算法介紹有關(guān)支持向量機的基本知識和原理可以參考文獻【3~6】.近鄰法(簡稱NN)是模式識別非參數(shù)法中最重要的方法之一,NN的一個很大特點是將各類中全部樣本點都作為"代表點".INN是將所有訓練樣本都作為代表點.因此在分類時需要計算待識別樣本到所有訓練樣本的距離.分類結(jié)果就是與最近的訓練樣本所屬于的類別.KNN是INN的推廣.即分類時
8、選出的k個最近鄰,看這k個近鄰中的多數(shù)屬于哪一類.就把分到哪一類.我們對SVM分類時錯分樣本的分布進行分析發(fā)現(xiàn).SVM分類器和其它的分類器一樣.其出錯樣本點都在分界面附近.這提示我們必須盡量利用分界面附近所提供的信息以提高分類性能.由SVM理論知道,分界面附近的樣本基本上都是支持向量.同時SVM可以看成每類只有一個代表點的最近鄰(NearstNeighhou