資源描述:
《svm-knn組合改進(jìn)算法在專利文本分類中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、SVM-KNN組合改進(jìn)算法在專利文本分類中的應(yīng)用SVM-KNN組合改進(jìn)算法在專利文本分類中的應(yīng)用李程雄-丁月華z文貴華2(廣東粵華發(fā)電有限責(zé)任公司信息分部,廣州510731)(華南理工大學(xué)計(jì)算機(jī)應(yīng)用工程研究所,廣州510640)E—mail:Lexl218@21on.COrn摘要提出了基于支持向量機(jī)的專利文本分類器的總體設(shè)計(jì)方案和實(shí)現(xiàn)方法;提出并分析了該分類器的改進(jìn)算法SVM-KNN組合改進(jìn)算法.文章對(duì)兩種算法進(jìn)行了大量的實(shí)驗(yàn)并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較分析,在此基礎(chǔ)上得出了三個(gè)結(jié)論.關(guān)鍵詞支持向量杌KNN專利分類最優(yōu)分類面
2、文章編號(hào)1002—8331一(2006)20—0193-03文獻(xiàn)標(biāo)識(shí)碼A中圖分類號(hào)TP181ApplicationofSVM-KNNCombinationImprovementAlgorithmonPatentTextClassificationLiChengxiongDingYuehuazWenGuiima2(InformationDivision,GuangdongYuehuaPowerCompanyLTD.,Guangzhou510731)(ResearchInstituteofComputerApplicat
3、ion,SouthChinaUniversityofTechnology,Guangzhou510640)Abstract:Itnarratestheoveralldesignplanandimplementationmethodofpatenttextclassificationmachineresultingfromsupportvectormachine;proposesandanalyzesitsimprovementalgorithmSVM-KNNcombinationimprovementalgorith
4、m;andagreatdealoftestsonclassificationmachinearecarriedouttotwoalgorithmsandthetestingresultsarecomparedandanalyzed.drawsth/~econclusionsinthisfoundation.Keywords:supportvectormachine,KNN,patentclassification,optimalhyperplane在當(dāng)今全球化經(jīng)濟(jì)的時(shí)代.專利技術(shù)已成為國(guó)家或地區(qū)競(jìng)爭(zhēng)力的核心,專利知識(shí)
5、產(chǎn)權(quán)越來越受到企業(yè)的重視.因此,近幾年的專利申請(qǐng)量迅速增長(zhǎng).但是目前專利分類仍是采用傳統(tǒng)的手工分類,這種分類的方法效率低下,存在許多弊端.如周期長(zhǎng),費(fèi)用高,效率低.分類結(jié)果一致性不高等問題.專利申請(qǐng)量的激增一方面增加了對(duì)快速,自動(dòng)文本分類的迫切需求,另一方面又為基于數(shù)據(jù)挖掘技術(shù)的文本分類方法準(zhǔn)備了充分的資源.因此.計(jì)算機(jī)輔助專利分類成為大勢(shì)之所趨【】1.當(dāng)前對(duì)支持向量機(jī)的研究是一個(gè)熱點(diǎn),支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,有一套堅(jiān)實(shí)的理論基礎(chǔ).遺憾的是.雖然支持向量機(jī)在理論上有很突出的優(yōu)勢(shì),但與其理論研究相比
6、.應(yīng)用研究尚相對(duì)比較滯后.目前只有比較有限的實(shí)驗(yàn)研究報(bào)道.且多屬仿真和對(duì)比實(shí)驗(yàn).研究目前利用支持向量機(jī)實(shí)現(xiàn)文本分類的現(xiàn)狀可以發(fā)現(xiàn).雖然存在很多這樣的應(yīng)用系統(tǒng),但分類對(duì)象都是新聞資料或網(wǎng)頁(yè)資料,而對(duì)于應(yīng)用于中國(guó)專利的分類則還沒有.所以這也是本文的一個(gè)創(chuàng)新點(diǎn)佇l(wèi).但目前在SVM的應(yīng)用中還存在一些問題.如對(duì)不同的應(yīng)用問題核函數(shù)參數(shù)的選擇較難,對(duì)較復(fù)雜問題其分類精度不是很高以及對(duì)大規(guī)模分類問題訓(xùn)練時(shí)間長(zhǎng)等.已有的解決方法包括建立分類性能的評(píng)價(jià)函數(shù).然后對(duì)SVM中的核函數(shù)的參數(shù)進(jìn)行優(yōu)化.或者使用直推方法對(duì)給定待樣本設(shè)計(jì)最優(yōu)的S
7、VM;所有這些方法的設(shè)計(jì)和計(jì)算都非常復(fù)雜,實(shí)現(xiàn)的代價(jià)都很高.因此系統(tǒng)采用了SVM—KNN組合算法對(duì)分類器進(jìn)行改進(jìn).并取得了一定的效果.1SVM—KNN(KSVM算法)組合改進(jìn)算法介紹有關(guān)支持向量機(jī)的基本知識(shí)和原理可以參考文獻(xiàn)【3~6】.近鄰法(簡(jiǎn)稱NN)是模式識(shí)別非參數(shù)法中最重要的方法之一,NN的一個(gè)很大特點(diǎn)是將各類中全部樣本點(diǎn)都作為"代表點(diǎn)".INN是將所有訓(xùn)練樣本都作為代表點(diǎn).因此在分類時(shí)需要計(jì)算待識(shí)別樣本到所有訓(xùn)練樣本的距離.分類結(jié)果就是與最近的訓(xùn)練樣本所屬于的類別.KNN是INN的推廣.即分類時(shí)選出的k個(gè)最近
8、鄰,看這k個(gè)近鄰中的多數(shù)屬于哪一類.就把分到哪一類.我們對(duì)SVM分類時(shí)錯(cuò)分樣本的分布進(jìn)行分析發(fā)現(xiàn).SVM分類器和其它的分類器一樣.其出錯(cuò)樣本點(diǎn)都在分界面附近.這提示我們必須盡量利用分界面附近所提供的信息以提高分類性能.由SVM理論知道,分界面附近的樣本基本上都是支持向量.同時(shí)SVM可以看成每類只有一個(gè)代表點(diǎn)的最近鄰(NearstNeighhou