資源描述:
《資料采礦方法論.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、資料採礦方法論79644010李全鴻79644019吳家榮79644020林俊佑前言介紹資料採礦的兩種基本模式:假設(shè)檢定及知識(shí)發(fā)掘,提出步驟及範(fàn)例。次序一、假設(shè)檢定過程二、監(jiān)督式知識(shí)發(fā)掘三、非監(jiān)督式知識(shí)發(fā)掘四、實(shí)際的問題五、案例基本模式假設(shè)檢定(HypothesisTesting):由上而下將可能的解釋賦予觀察到的現(xiàn)象,並將假設(shè)套用在原始資料上檢視解釋是否正確。知識(shí)發(fā)掘(KnowledgeDiscovery):由下而上分析原始資料,從中找出有用的規(guī)則或訊息,又被稱作「機(jī)械學(xué)習(xí)」。假設(shè)檢定過程介紹假設(shè)檢
2、定的過程構(gòu)思合理的假設(shè)決定採用哪些樣本供測(cè)試找出樣本資料統(tǒng)整資料以供分析根據(jù)資料建立電腦分析模型評(píng)估假設(shè)是否正確假設(shè)檢定的過程1.構(gòu)思合理的假設(shè):在此階段重要的是要得到廣泛的相關(guān)訊息,以這些訊息來明確的作問題陳述。建議採用集體討論座談的方式來集思廣益。假設(shè)檢定的過程2.決定採用哪些樣本供測(cè)試:產(chǎn)生假設(shè)後所決定,樣本可能存在於企業(yè)既有的資料庫中,也可能要從零散的資料做匯整,進(jìn)行市場(chǎng)調(diào)查,甚至花費(fèi)鉅資向調(diào)查公司購買相關(guān)的資料。假設(shè)檢定的過程3.找出樣本資料:所需的資料往往散佈在各種不同的作業(yè)系統(tǒng)中,而且往往
3、格式不同。且面對(duì)問題的差異,「有用」及「可立即取得」的原始資料往往大相逕庭。假設(shè)檢定的過程4.統(tǒng)整資料以供分析:在此步驟,必須將原始資料轉(zhuǎn)換成資料採礦軟體所需的格式??赡芤獙⑦B續(xù)值轉(zhuǎn)換成類別變數(shù),或?qū)?shù)字差異大的數(shù)據(jù)標(biāo)準(zhǔn)化等等。但在這個(gè)過程中可能會(huì)遇到的問題包括:(1)分類階層(2)系統(tǒng)不相容(3)資料編碼不一(4)文字資料的轉(zhuǎn)換(5)遺漏值的處理假設(shè)檢定的過程(1)統(tǒng)整資料的問題:分類階層資料的分類並非越詳盡越好。太詳盡的分類會(huì)造成以下的問題。(a)並非分析所需的分類(b)單一分類的樣本太少然而未經(jīng)統(tǒng)
4、整的資料卻又太過龐大,因此選擇適當(dāng)?shù)姆诸愲A層是重要的一步。假設(shè)檢定的過程(2)統(tǒng)整資料的問題:系統(tǒng)不相容每種作業(yè)系統(tǒng)可能都有他們自己的一套語法,並沒有所謂共通的語言,然而這個(gè)問題在目前套裝的軟體多半可以以自動(dòng)轉(zhuǎn)換的方式獲得解決。如SAS除了ASCII之外,也可以支援EXCEL的格式。假設(shè)檢定的過程(3)統(tǒng)整資料的問題:資料編碼不一從不同來源收集特定目的的原始資料時(shí),相同的變數(shù)資料可能會(huì)以不同的形式記錄下來,在統(tǒng)整時(shí)必須謹(jǐn)慎處理。假設(shè)檢定的過程(4)統(tǒng)整資料的問題:文字資料的轉(zhuǎn)換少數(shù)情形下我們會(huì)想要從文字資
5、料中獲得有用的情報(bào)(如MBR中的「新聞報(bào)導(dǎo)分類」),但多數(shù)純文字的格式都必需經(jīng)過轉(zhuǎn)換。文字資料的格式若有一定的標(biāo)準(zhǔn)則較好處理,但仍需注意某些細(xì)節(jié),如「臺(tái)中市」與「臺(tái)中市」就會(huì)被電腦當(dāng)作是兩個(gè)不同的數(shù)值-但其實(shí)他們是一樣的。假設(shè)檢定的過程(5)統(tǒng)整資料的問題:遺漏值的處理通常會(huì)選擇對(duì)有遺漏值的資料不予估計(jì),但若真的要使用的話,就必須以最可能的數(shù)值進(jìn)行替換。可能數(shù)值的搜尋可以利用資料比對(duì)的方式,比較有遺漏值的樣本與資料庫中哪個(gè)完整樣本的相關(guān)性最強(qiáng),並以完整樣本的數(shù)值取代遺漏值。類神經(jīng)網(wǎng)路也可幫助推估出可能的數(shù)值。
6、假設(shè)檢定的過程5.根據(jù)資料建立電腦分析模型:將所需分析的問題根據(jù)所蒐集資料的特性建立起適當(dāng)?shù)姆治瞿P?。假設(shè)檢定的過程6.評(píng)估假設(shè)是否正確:將分析模型應(yīng)用在資料上,檢視假設(shè)是否成立。然而如同作學(xué)術(shù)研究,在技術(shù)的分析後往往要靠專業(yè)人士針對(duì)分析的結(jié)果提出商業(yè)或管理上的意涵,才能變成真正有用的結(jié)論。知識(shí)發(fā)掘知識(shí)發(fā)掘的分類可分為監(jiān)督式及非監(jiān)督式兩種監(jiān)督式:如MBR找出特定變數(shù)的數(shù)值有何意義,並選定輸出變數(shù),讓電腦找出如何對(duì)其進(jìn)行評(píng)估、分類或是預(yù)測(cè)。也就是嘗試對(duì)已知的型態(tài)關(guān)係進(jìn)行解釋。如選定「可能會(huì)倒帳的客戶」為輸出,將
7、變數(shù)(如年收入及性別等)放入進(jìn)行分析。非監(jiān)督式:如購物籃分析沒有輸出變數(shù),此模式的目的在於讓電腦自行找出顯著關(guān)聯(lián)的型態(tài)。監(jiān)督式知識(shí)發(fā)掘希望能夠解答特定的問題時(shí)使用。其程序包含以下四步驟:(1)確認(rèn)原始資料來源(2)彙整資料以供分析(3)建立並測(cè)試分析模型(4)評(píng)估分析模型監(jiān)督式知識(shí)發(fā)掘(1)確認(rèn)原始資料來源:最佳的資料來源是既存的資料倉儲(chǔ),倉儲(chǔ)內(nèi)部的資料皆經(jīng)過固定格式的整理,方便進(jìn)行分析。然而多數(shù)的情形下企業(yè)並沒有建立資料倉儲(chǔ),必須收集各部門的相關(guān)資訊。監(jiān)督式知識(shí)發(fā)掘(2)匯整資料以供分析:如同假設(shè)檢定時(shí)的
8、資料彙整原則,加入有用的變數(shù)可以增加產(chǎn)出有用結(jié)論的機(jī)率。許多資料採礦的情形下,資料都必須被分為「訓(xùn)練集」(建立初始模型)、「測(cè)試集」(調(diào)整初始模型)及「驗(yàn)證集」(衡量模型表現(xiàn))。資料量在資料採礦中通常越多越好,而變數(shù)也是可以儘可能的將已知的變數(shù)放入模型,可能會(huì)有意想不到的結(jié)果。監(jiān)督式知識(shí)發(fā)掘(3)建立並測(cè)試分析模型:知識(shí)發(fā)掘的方法在