資源描述:
《基于svm的分類挖掘算法及其應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、大慶石油學(xué)院碩士學(xué)位論文基于SVM的分類挖掘算法及其應(yīng)用姓名:張興旺申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:司光宇20070312基于SVM的分類挖掘算法及其應(yīng)用摘要隨著數(shù)據(jù)庫技術(shù)的應(yīng)用越來越普及,各行各業(yè)在經(jīng)營過程中收集了大量的業(yè)務(wù)數(shù)據(jù),在這大量的數(shù)據(jù)中蘊藏著豐富的信息,如何挖掘出這些信息使其成為有用的知識,指導(dǎo)企業(yè)的經(jīng)營決策,已經(jīng)成為一個迫切需要解決的問題,數(shù)據(jù)挖掘技術(shù)在這種背景下應(yīng)運而生。數(shù)據(jù)挖掘是在數(shù)據(jù)庫中發(fā)現(xiàn)有用的、潛在的、最終可理解的模式的非平凡過程。分類是其中一種最常用的數(shù)據(jù)挖掘任務(wù)。支持向量機(S
2、VM)作為一種新興的基于統(tǒng)計學(xué)習(xí)理論的分類算法,以其堅實的理論基礎(chǔ),巧妙的算法實現(xiàn)和突出的卓越性能脫穎而出。與其它分類算法相比,SVM方法具有全局最優(yōu)、結(jié)構(gòu)簡單、推廣能力強等優(yōu)點,目前在很多領(lǐng)域獲得了相對其它分類方法的最優(yōu)的性能。鑒于此,結(jié)合參與自來水公司數(shù)據(jù)挖掘項目中遇到的問題,對基于SVM的分類算法在數(shù)據(jù)挖掘中的應(yīng)用進行了研究。本文首先討論了數(shù)據(jù)挖掘的基本概念,挖掘任務(wù)以及挖掘的基本過程,并比較分析了幾種常用的分類挖掘算法及其優(yōu)缺點并簡單介紹了評估分類模型的幾種方法。然后詳細闡述了統(tǒng)計學(xué)習(xí)理論及結(jié)構(gòu)風(fēng)險最小化原則,基
3、于最大間隔分類超平面對SVM算法進行了理論推導(dǎo),并分析了SVM作為一種新的分類方法所具有的優(yōu)勢。在此基礎(chǔ)上,研究了把SVM應(yīng)用于數(shù)據(jù)挖掘分類任務(wù)時需解決的問題,如適用于大數(shù)據(jù)集訓(xùn)練的選塊算法、分解算法和序列最小化算法;基于二分類支持向量機構(gòu)造多分類支持向量機的一對多、一對一及DDAG算法;結(jié)合隨機分層采用技術(shù)改進了基于網(wǎng)格搜索的SVlvi模型參數(shù)尋優(yōu)方法。在作了充分的理論分析后,論文提出了一種基于SVM的水費欠費用戶預(yù)測建模方案。結(jié)合數(shù)據(jù)挖掘理論闡述了數(shù)據(jù)預(yù)處理的過程,對建立的挖掘模型采用分層隨機采樣的交叉驗證網(wǎng)格搜索方
4、法確立模型參數(shù)進行了較為深入的研究。關(guān)鍵詞:數(shù)據(jù)挖掘;支持向量機;核函數(shù);交叉驗證;分層隨機采樣ⅡResearchofClassificationAlgorithmBasedonSVMandItsApplicationinDataMiningAbstractWiththemoreuniversalapplicationofdatabasetechnology,everywalkoflifehascollectedlargevolumesofrawdatainwhichabundanceofinformationmerge
5、d.Consequently,howtoabstractusefulknowledgefromitandthusdirecttheoperationofbusinessb@Acome$aproblemneedtobesolvedimminenfly.DammiIlil唱technologycom囂intobeinginthisbackground.Dataminingisanon-trivialprocesssearchingforuseful,potentialandunderstandableformfromsets
6、ofdata,inwhichclassificationisoneofthemostwidelyuseddataminingtasks.Asanewemergjngclassificationalgorithmbasedollstatisticallearningtheory,mlpportvectormachine(SVM)isprominentbyitssolidtheoryfoundation,smartalgodthmimplementationandexcellentperformance.Comparedwi
7、thotherclassificationalgoriOuns,SVMhastheadvantagesofglobaloptimization,simplestructurcandhighgeneralizationability.Sofar,ithasachievedthebestperformanceinmanyfields.Inconsiderationofthis,applicationofSVMintodatamiD.iIlgisstudiedintll_isthesisfortheproblemsencoun
8、teredintheparticipatingintothedataininillgprojectforwatersupplycompany.Theconcepts,ra“ngtaskandbasicminingprocessofdataminingisaddressedatthebeginning.Also,som