資源描述:
《基于粗糙集的數(shù)據(jù)挖掘方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、基于袒糙纂磚數(shù)糖挺掘方法礙寵第一孽緒論蟊俺霄效遣實(shí)現(xiàn)對(duì)數(shù)據(jù)韻分拼翦{處鷲,魏謗快速穗簸數(shù)據(jù)中攫墩疆隱含靜鱺諼,長(zhǎng)期以來(lái)一嶷燕久工餐轆鎂域的磺突熱點(diǎn)。撬囂學(xué)爵佟憊人工鍵糍壤皺斡美鍵技瘩之一,玉經(jīng)在專家系統(tǒng)、語(yǔ)言處理、故障診斷和智能控制等眾多領(lǐng)域flI獲得了長(zhǎng)足的進(jìn)展,并日煎體璦出其成塌馀籃取發(fā)麟燕景;近霉柬,睫整數(shù)攥癢技術(shù)躲發(fā)震幫數(shù)攝癢蓉理系統(tǒng)熬廣泛艨娼,人類獲聯(lián)和處理的數(shù)據(jù)量憊劇增加。在這秘背景下,一些新的蓉舷數(shù)攆處理技術(shù),如:數(shù)據(jù)津知識(shí)發(fā)現(xiàn)(KDD),數(shù)據(jù)榿獺(DataMinin曲等應(yīng)運(yùn)而生,并在理論和璉埔上都有一定的成果。因此。知識(shí)發(fā)現(xiàn)和數(shù)撼挖掘是
2、應(yīng)用囂求推動(dòng)下跨學(xué)科發(fā)展盼產(chǎn)物“J。1,1諜瓤磷究的背景和意義近年采,隨著辯學(xué)技術(shù)蛇飛速發(fā)展,經(jīng)濟(jì)瓤社會(huì)都墩褥了極大的遴步,與此嗣時(shí),在備個(gè)領(lǐng)域產(chǎn)生了大麓的數(shù)據(jù),激增的數(shù)據(jù)背艏隱藏著許多霆要的信怠。入f『j不群藕足于數(shù)據(jù)庫(kù)鮑搬詢功能,希望撓夠?qū)ζ浔苄懈哟蔚姆治?,以便能從?shù)攝中提取信息或者知識(shí)為決策服務(wù)。目前箭數(shù)攥庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的最入、蠢詢、統(tǒng)計(jì)等功髓,僵無(wú)法靛蕊數(shù)據(jù)I幸l存在靜芙系鞠瓶簧{』,羌法粳據(jù)瑗霄煞數(shù)據(jù)頸涮來(lái)來(lái)酌發(fā)蕊趨勢(shì)。缺纛挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象【3l。同樣,傳統(tǒng)的統(tǒng)計(jì)技術(shù)搬面落瓣極失靜挑
3、戰(zhàn)。遮藏急器育新的蠢法采處理遮擅潛盈數(shù)搭。數(shù)捺挖掘凝憊為頹澎這靜需耍巍運(yùn)露生發(fā)矮趣寒茲數(shù)攥娥理技拳。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中瓣、人裁事巍不躲遴黥、毽又楚潛在毒用躲績(jī)爨和翔談鶼j遣程14l。囂為與數(shù)撂黲密誘輟熒,又稱為數(shù)據(jù)蓐知識(shí)發(fā)現(xiàn)。它與穗繞鮑數(shù)據(jù)分析斡本質(zhì)區(qū)別是數(shù)攥挖撼是在沒(méi)蠢鸛確假設(shè)躲葡提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得副的信息成鼠有先前未知、有效和可實(shí)用三個(gè)特征。先前未知的信怠是指該信崽是預(yù)先柬蝗預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)璐那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),挖掘出的信息越是出乎意料,藏可熊越脊債值
4、。所以,一種髓蠡動(dòng)分輯數(shù)瓣,并疆彀滔隱藏靜趣入掰璦解瀚知滾靜數(shù)據(jù)挖掘算法燕藩常脊用瓣。它的出現(xiàn)為自動(dòng)和智能地把海艇數(shù)據(jù)轉(zhuǎn)化為有用的知識(shí)提供了有力的手段”J。麩本質(zhì)上來(lái)講,數(shù)據(jù)挖掘技術(shù)從一開始裁楚面向斑嗣的,它不僅罹面向待定數(shù)據(jù)露的筵單撿索查讖諼臻,囂艇要鼴這些數(shù)搖避籽徽褒、孛疑乃燕宏纛靜統(tǒng)囂、分褥、綜合囂接理。如數(shù)據(jù)挖掘在客戶概況分析中的應(yīng)用,根據(jù)挖掘預(yù)測(cè),可以幫助捷業(yè)發(fā)現(xiàn)新的消費(fèi)群體,礁寇泰基靜藤褰其離熬持患,并迸學(xué)定自罄鎊;數(shù)攥羥攘在魏鬻方式分櫥申縋應(yīng)麓,使用數(shù)攢挖掇技術(shù),幫霸零售念垃虢定顧騫會(huì)圈隧贍買賻些商品,髑戶可以確定哪些嶷翳供應(yīng)哪些商膳,以
5、及在商店中慧樣擺敖這些商品,達(dá)到方便顧客購(gòu)買,增加鏑售擻的目的。譙商業(yè)應(yīng)用中最典型的捌子就是一家連錟店邋過(guò)數(shù)據(jù)挖攘發(fā)現(xiàn)了小孩尿布和噻溪之聞《饕豫人的聯(lián)繇。此歲卜,數(shù)據(jù)挖掇在天文學(xué)、電力系統(tǒng)以及簍蔓物學(xué)蔣方面都有稽成功的應(yīng)用基于粗鞋案秘教捂毪輟方擊輯競(jìng)州。需要指出的是,數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識(shí)不是要求發(fā)現(xiàn)放之四海麗皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)幫新的自然科學(xué)定理和純數(shù)學(xué)公式,所有發(fā)現(xiàn)的知識(shí)都是相對(duì)的,具有特定前提霜魏衷條幸申。因建醞究蘸效智戇熬翔專蓑獲取方法具有綴大戇褒實(shí)意義。在知識(shí)工程研究中,一直存在著信息的禽糊性等闖題,人工智能的基礎(chǔ)理論之——繳典邏輯不熙以
6、解決這然不確定性問(wèn)題。粗糙集(Roughsot,RS)【『J理論正是在漣種情況下逐步建立勢(shì)發(fā)展起采盼。它是28世紀(jì)80每妖拐由波蘭牮滲理工大學(xué)z.P釃l娃教授提出的一種處濺模糊幫不確定知識(shí)的數(shù)學(xué)工具。糖糙集理論矮有~些獨(dú)特盼觀點(diǎn),遮些觀點(diǎn)使得粗糙集特別適合于進(jìn)行數(shù)據(jù)分析。如知識(shí)的粒度性——相糙集理論認(rèn)為知識(shí)的粒度性是造成使用墨霄知識(shí)不能精確地表瀑某些概念的原因。遺過(guò)g}入不可囂癸關(guān)系作為粗糙集理論縋基礎(chǔ),并在藏鏊輔主定義了上下透強(qiáng)等壤念,疆糙集理論靛夠肖效的遙j蠢這些穰念。粗糙集理論與其它處穗不確定性問(wèn)題理論的攝顯著的聯(lián)別是它無(wú)需提供問(wèn)題所需處理的數(shù)據(jù)
7、集合之外的任何先驗(yàn)信息,如統(tǒng)計(jì)中要求盼先驗(yàn)概率和模糊集中要求的隸屬度p”J,胃壹接瓢鯰定薅蓬的擦述集合瘩發(fā),透過(guò)不霹分辨關(guān)系察等徐類確定繪定簿爨靜近糕域,從而找出該問(wèn)題的規(guī)律。隨著數(shù)據(jù)挖掘的嫩起,粗糙集理論也受到數(shù)據(jù)挖掘研究者的重視進(jìn)而受到研究界的廣必注意。糕糙集幫數(shù)擺燕撼芙系密甥,它;《}數(shù)據(jù)挖掘掇供了一釋瓤漿方法昶二】=其。營(yíng)先,數(shù)據(jù)挖掘研究的實(shí)施對(duì)象多為關(guān)系藿數(shù)據(jù)癢。關(guān)系表可被看作粗糙集理論中的狹策表,遨給粗糙集方法的應(yīng)用帶來(lái)極大的方便。第二二,現(xiàn)實(shí)世界中的規(guī)則有確定性的,也有不確定性的。從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)不確定性鮑知識(shí),為糖糙集方法提供了用武之迅。
8、第蘭,數(shù)據(jù)庫(kù)孛鮑數(shù)據(jù)可熊含有噪聲,麗攆豫數(shù)據(jù)處理過(guò)程牽靜噪聲囊照箍糙集溪涂靜特長(zhǎng)之一。第西,基