資源描述:
《基于粗糙集的數(shù)據(jù)挖掘模型的研究與應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、大連海事大學(xué)碩士學(xué)位論文基于粗糙集的數(shù)據(jù)挖掘模型的研究與應(yīng)用姓名:任宏旺申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):管理科學(xué)與工程指導(dǎo)教師:陳燕;劉巍2003.3.1摘要數(shù)據(jù)挖掘(DataMining,DM)是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過程。粗糙集理論是1982年由PawlakZ提出,經(jīng)歷了近20年的發(fā)展,已經(jīng)在理論和應(yīng)用上取得了豐碩的成果。它不依賴于數(shù)據(jù)集之外的附加信息,是處理含有噪聲、不精確、不完整數(shù)據(jù)的有力工具,是一種新的數(shù)據(jù)挖掘技術(shù)。許多數(shù)據(jù)挖掘技術(shù)僅僅適用于精確集,不適用于粗糙集,而現(xiàn)
2、實(shí)中粗糙集是普遍存在的現(xiàn)象,因此基于粗糙集的數(shù)據(jù)挖掘模型在信息系統(tǒng)的研究領(lǐng)域具有重要意義。本文提出了基于粗糙集的數(shù)據(jù)挖掘模型,并提出了其中的數(shù)據(jù)約簡(jiǎn)算法、規(guī)則提取算法及連續(xù)屬性值的離散化方法。通過將本文提出的挖掘模型應(yīng)用到實(shí)際系統(tǒng)中,得到的規(guī)則和一線專家的經(jīng)驗(yàn)相吻合,證實(shí)了該模型的先進(jìn)性和實(shí)用性。關(guān)鍵字:數(shù)據(jù)挖掘粗糙集屬性約簡(jiǎn)離散化√-一。V/VAbsttactDataminingistheprocessofdiscoveringinterestingknowledgefromlarge&mountsofData
3、storedeitherinDatabases,DataWarehouses,orotherinformationrepositories.RoughSet(RS)theorywasputforwardbyPawlakZdzislawin1982.Afterabout20yesrsofdeveloping,ithasreceivedfruitfulachievementsinbothoftheoryandapplications.RSdoesn’tdependonadditionalinformationbeyo
4、ndthedataset,whichisapotenttoolfordealingwithvague,imprecise,incompleteanduncertaindata,andiSanewtechnologyinDataMining.Sometrasitionalmethodofdataminingisonlysuitableforpreciseset,notforroughset.Sincemanysetofdatainreal1ifeiSrough,themodelofdataMiningbaesdon
5、RoughSetTheoryPlaysanimportantroleininformationsystem.IntheDissertation,ADataMiningModelBasedonRoughSetTheoryisBroughtforward.ThentwoAttribute—reducingAlgorithms:discernibilitymatrixalgorithmandGreedyRoughSetReducingalgorithmareputforward.MeanwhiletheruleExtr
6、actioonalgorithmandadiscretizationmethodforcontinuousattributesareputforthtoo.APracticalsystemissuccessfullyconstructedbasedontheDataMiningModelPresentedintheDissertation.TherulesextractedbytheRSAlgorithmareinaccordwiththeknowlwdgeoferpert.Alltheseprovedthatt
7、hemodelisadvancedandpractical.KeyWords:DataMining、RoughSet、AttributeReduction、DiscretizationⅡ第1章緒論1.1引言數(shù)據(jù)挖掘。1(DataMining,DM)是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過程。目前已成為國際上信息決策領(lǐng)域最前沿的研究方向之一。它融合了數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算的一個(gè)新興的跨學(xué)科的研究方向,具有十分廣闊的應(yīng)用前景。粗糙集理論作為集合論的擴(kuò)展,主要研究在信息
8、不完全和不完整情況下的數(shù)據(jù)挖掘技術(shù)。而許多傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)僅僅適用于精確集,不適用于粗糙集,但在現(xiàn)實(shí)中粗糙集是普遍存在的現(xiàn)象。因此,基于粗糙集的數(shù)據(jù)挖掘技術(shù)在信息系統(tǒng)的研究領(lǐng)域具有重要的意義。1.2數(shù)據(jù)挖掘在國內(nèi)外研究和發(fā)展現(xiàn)狀(一)數(shù)據(jù)挖掘的起源JohnNaisbett在《大趨勢(shì)》一書中曾感嘆:“WeareDrowningininformation,butstarvi