資源描述:
《基于粗集的權重確定方法及其在電信客戶數(shù)據(jù)挖掘中的應用》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、北京郵電大學碩士學位論文基于粗集的權重確定方法及其在電信客戶數(shù)據(jù)挖掘中的應用姓名:景士穎申請學位級別:碩士專業(yè):管理科學與工程指導教師:舒華英20040303基于粗集的權重確定方法及其在電信客戶數(shù)據(jù)挖掘中的應用摘要聚類分析作為數(shù)據(jù)挖掘技術中一種應用廣泛的重要分析方法,近年來相關領域的研究相當活躍。隨著計算機技術的高速發(fā)展,知識與大量觀察和實驗數(shù)據(jù)的處理、歸納、分類相聯(lián)系,波蘭華沙理工大學Z.Pawlak教授等提出用粗集理論(RoughSet)研究不完整數(shù)據(jù)、不精確知識的表達、學習、歸納方法,為信息科學和認知科學提供了新的科學邏輯和研究方法。本文將聚類分析與粗集理論結合起來,針對
2、提高聚類算法的有效性的需求,提出了~種將粗集理論應用于數(shù)據(jù)挖掘的新思路:利用粗集理論中決定屬性重要性的思路來計算數(shù)據(jù)庫中屬性的權重,并將得到的權重用于聚類分析。本文的所做的研究工作和創(chuàng)新主要體現(xiàn)在以下幾個方面:1.將粗集理論應用于聚類算法中權重的確定,提出了一種有所側重的聚類權重確定方法,即RSW算法。它的優(yōu)點在于不依賴于專家的打分,能夠充分發(fā)掘和利用數(shù)據(jù)庫中的隱含的知識,作為確定權重的依據(jù)。與統(tǒng)計方法確定權重相比其特色在于,它不是采取概率的方法來描述不確定性,而采用集合論的方法。利用粗集方法確定權重的方法的適用范圍是聚類有較明確的目標,這個目標能夠用決策屬性明確的表達出來;條
3、件屬性與聚類的目的(決策屬性)相關,并且對于聚類所起作用的大小有所差異。2.在RSW算法的基礎土,與統(tǒng)計的方法相結合,提出了SRSW算法。與RSW算法相比,SRSW算法的特點在于它把粗集方法與統(tǒng)計方法結合起來,充分利用數(shù)據(jù)庫中的統(tǒng)計信息。3.將RSW算法和SRSW算法應用于電信客戶數(shù)據(jù)聚類分析的實踐,驗證了算法的有效性。關鍵詞:數(shù)據(jù)挖掘聚類分析距離粗集權重DETERMINATIONOFWEIGHTSBASEDONROUGHSETTHEORYANDITSAPPLICATl0NINDATAMINING0FTELECOM’SCUSTOMERDATAABSTRACTAsanimport
4、anttechniqueofdatamining,dataclusteringisundervigorousdevelopmentinrecentyears.Withthequickdevelopmentofcomputertechnique,theanalysisandreasoningofincompletedatahasbecomeakeyissueofintelligentinformationprocessing.Prof.Z.PawlakfromWarsawUniversityofPolandproposedtheRoughSetTheorytoanalyzethe
5、expression,learningandinductionofincompleteknowledgeandimprecisedata,whichprovidedaneffectivetechniqueofprocessingintelligentinformation.Thist_hesisfoc:'.smOn-~{rn?nrnvl?n。otheusabilityofclusteralgoritb—m,whichproposedanewwayofapplyingtheRoughSettheoryintoclusteranalysisofdatamining:usingthe
6、methodofdeterminingtheimportanceofattributesindecisiontable,itcalculatedattributes’weightsindatabases,whicharethenusedinclusteranalysis.Researchworkandnewcontributionsinthethesisinclude:1.ProposedtheRSWalgorithmbyapplyingtheRoughSettheoryinthedeterminationofwei}ghtsinclusteringalgorithm.RSWa
7、lgorithmbelongstoBiasedWeight—DeterminedMethods.TheadvantageofRSWalgorithmisthatitisnotdependentonthescoringofexperts,anditcanfullyexploittheknowledgehiddeninthedatabaseanduseittodetermineweights.Itdiffersfromstatisficaiweight·determinationmethodsi