資源描述:
《幾種數(shù)據(jù)分析方法的比較分析.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、分類號密級UDC幾種數(shù)據(jù)分析方法的比較分析孫鑫導(dǎo)師姓名(職稱)田煜斌(教授)、黃寶勝答辯委員會(huì)主席涂耀文教授申請學(xué)科門類理學(xué)論文答辯日2007年7月6日申請學(xué)位專業(yè)概率論與數(shù)理統(tǒng)計(jì)2007年7月5日研究成果聲明本人鄭重聲明:所提交的學(xué)位論文是我本人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作獲得的研究成果。盡我所知,文中除特別標(biāo)注和致謝的地方外,學(xué)位論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得北京理工大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書所使用過的材料。與我一同工作的合作者對此研究工作所做的任何貢獻(xiàn)均已在學(xué)位論文中作了明確的說明并表示了謝意。特此申明。簽
2、名:日期:關(guān)于學(xué)位論文使用權(quán)的說明本人完全了解北京理工大學(xué)有關(guān)保管、使用學(xué)位論文的規(guī)定,其中包括:①學(xué)校有權(quán)保管、并向有關(guān)部門送交學(xué)位論文的原件與復(fù)印件;②學(xué)校可以采用影印、縮印或其它復(fù)制手段復(fù)制并保存學(xué)位論文;③學(xué)??稍试S學(xué)位論文被查閱或借閱;④學(xué)??梢詫W(xué)術(shù)交流為目的,復(fù)制贈(zèng)送和交換學(xué)位論文;⑤學(xué)??梢怨紝W(xué)位論文的全部或部分內(nèi)容(保密學(xué)位論文在解密后遵守此規(guī)定)。簽名:日期:導(dǎo)師簽名:日期:摘要數(shù)據(jù)挖掘中的機(jī)器學(xué)習(xí)方法分為有指導(dǎo)的學(xué)習(xí)和無指導(dǎo)的學(xué)習(xí)。有指導(dǎo)學(xué)習(xí)需要給出不同類別的實(shí)例作為訓(xùn)練實(shí)例,由這些訓(xùn)練實(shí)例得到類的描述,然后給新的測試實(shí)例匹配類
3、標(biāo),其主要學(xué)習(xí)任務(wù)是分類和回歸。本文首先介紹了數(shù)據(jù)挖掘的發(fā)展歷史和流行的分類方法,然后重點(diǎn)研究了最小二乘、KNN和邏輯斯蒂回歸的分類預(yù)測過程。由于目前沒有任何一種統(tǒng)計(jì)數(shù)據(jù)分析方法是最優(yōu)的,所以這些常用方法的評估和選擇有重要的意義。本文重點(diǎn)研究了三種模型評估和選擇的方法—AIC準(zhǔn)則、BIC準(zhǔn)則和交叉驗(yàn)證。最后本文根據(jù)兩類情況,利用計(jì)算機(jī)模擬現(xiàn)實(shí)數(shù)據(jù),并用上述三種統(tǒng)計(jì)方法對其進(jìn)行建模做分類預(yù)測,再進(jìn)行模型評估。評估結(jié)果是:最小二乘法擬合的模型對第一種情況的模擬數(shù)據(jù)預(yù)測能力優(yōu)于邏輯斯蒂回歸和KNN擬合的模型,而且0類的預(yù)測結(jié)果明顯優(yōu)于1類的預(yù)測結(jié)果;KNN
4、擬合的模型對第二種情況的模擬數(shù)據(jù)預(yù)測能力優(yōu)于最小二乘法和邏輯斯蒂回歸擬合的模型。關(guān)鍵字:數(shù)據(jù)挖掘、分類、最小二乘、最近鄰、邏輯斯蒂、交叉驗(yàn)證。AbstractThemethodofMachineLearningincludesSupervisedLearningandUnsupervisedLearninginDataMining.SupervisedLearningneedstosupplydifferentclustersofexamplestobethetrainingexamples,andwecangetthedescriptionofcl
5、ustersfromthetrainingexamples.Thenthenewtestingexamplesneedmatchthemarksofclusters.ThechieflearningmissionsofSupervisedLearningareClassificationandRegression.Firstly,thispaperintroducesthedevelopinghistoryoftheDataMiningandtheprevalentmethodsofClassification.Andthenitmainlyrese
6、archestheprogressofClassificationpredictingofLeastSquare,KNNandLogistic.Nowadays,becauseanymethodofstatisticaldataanalysisisnotthebest,itisverysignificanttoevaluateandselectthemodelsfromthethreemethodsabove.Thispapermainlyresearchesandanalysesthreemethodsofmodelevaluatingandsel
7、ecting----AIC,BICandCross-Validation.Finally,accordingthetwosituations,thispapersimulatesandgeneratesthepracticaldatawithMatlab.Throughthesedata,wecanusethethreemethodstomodelingforclassificationpredictingandevaluatethemodels.Theresultsofevaluating:Forthesimulativedatafromthefi
8、rstsituations,thepredictingabilityofthemodelfromLeastS