資源描述:
《數(shù)據(jù)挖掘技術(shù)在企業(yè)貨源投放系統(tǒng)中的應(yīng)用研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、數(shù)據(jù)挖掘技術(shù)在企業(yè)貨源投放系統(tǒng)中的應(yīng)用研究 摘要:以XX市煙草公司為例,探討了數(shù)據(jù)挖掘技術(shù)在企業(yè)貨源投放系統(tǒng)中的應(yīng)用?!靶姓^(qū)劃”作為企業(yè)零售客戶的屬性之一,在以往貨源投放中一直未得到很好利用。本文首先應(yīng)用相關(guān)性分析和回歸分析技術(shù),挖掘出“行政區(qū)劃”對應(yīng)的人口和經(jīng)濟與客戶數(shù)量及客戶規(guī)模之間的關(guān)系,之后采用K-Means算法從貨源投放的角度建立新的“行政區(qū)劃”分類模型,聚類后的“行政區(qū)劃”屬性作為貨源投放的一個重要指標(biāo),可以指導(dǎo)企業(yè)實現(xiàn)合理貨源投放?! £P(guān)鍵詞:數(shù)據(jù)挖掘;相關(guān)性分析;回歸分析;聚類算法;貨源投放 中圖分類號:TP311文獻標(biāo)識碼:A文章編號:1009-3044(2
2、015)27-0182-02 1引言 合理貨源投放對于企業(yè)維持市場穩(wěn)定,提高客戶滿意度和服務(wù)水平至關(guān)重要[1]。但某市煙草公司貨源投放系統(tǒng)存在以下問題:其一,“棋盤式”貨源投放指標(biāo)龐雜無法實現(xiàn)自動投放因而實用性不強。其二,星級貨源投放方式因指標(biāo)的設(shè)定人為主觀過多、缺乏科學(xué)依據(jù),投放效果也不理想?! ”狙芯堪l(fā)現(xiàn),目前“行政區(qū)劃”仍采用區(qū)域劃分方式,在貨源投放系統(tǒng)中未很好利用。采用數(shù)據(jù)挖掘技術(shù)進行相關(guān)性和回歸分析后發(fā)現(xiàn),“行政區(qū)劃”對應(yīng)的人口、經(jīng)濟和該區(qū)域零售客戶的數(shù)量和規(guī)模十分相關(guān),若能從貨源投放的角度重新分類,會對貨源投放有重要指導(dǎo)意義。5 因此,本文首先對該市原有“行政區(qū)劃
3、”過濾,之后采集鄉(xiāng)鎮(zhèn)一級的人口、經(jīng)濟、客戶數(shù)量和客戶規(guī)模數(shù)據(jù),并對其進行相關(guān)性和回歸分析,找到影響該區(qū)域貨源投放的重要屬性,最后采用K-Means聚類算法建立新的“行政區(qū)劃”分類模型。 2數(shù)據(jù)挖掘技術(shù) 2.1相關(guān)性分析和回歸分析 相關(guān)性分析是研究兩變量線性相關(guān)程度強弱的常用方法,常通過計算Pearson樣本相關(guān)系數(shù)r來對連續(xù)變量之間是否存在顯著線性關(guān)系進行檢驗。Pearson樣本相關(guān)系數(shù)計算如式所示,其中N為樣本個數(shù),xi和yi為兩個檢測變量的值,r為相關(guān)系數(shù)[2]?! 』貧w分析是探索變量之間規(guī)律性的數(shù)據(jù)挖掘方法,若變量為數(shù)值型,則回歸模型可有效揭示因變量和自變量之間的變化規(guī)
4、律,首先假定已知函數(shù)擬合樣本數(shù)據(jù),爾后采用誤差分析法選擇與目標(biāo)數(shù)據(jù)擬合最好的函數(shù)。但當(dāng)因變量為分類型變量時,則無法直接借助回歸模型進行研究,常采用Logistic回歸分析法[3]?! ?.2K-Means聚類算法 聚類是數(shù)據(jù)挖掘技術(shù)重要應(yīng)用之一,目的是將數(shù)據(jù)對象劃分為若干類,使同一類中的對象相似度較大,而不同類中的對象盡可能不同[4]。與分類不同,由于聚類前類別的個數(shù)未知,因此聚類實際上是通過度量相似性,使對象聚成若干簇的過程,而相似性的度量一般通過距離來實現(xiàn),距離越小說明兩個對象間越相似,常用距離類型有四種:歐氏距離,曼哈頓距離,切比雪夫距離和馬氏距離[2]。5 K-Mean
5、s是典型的聚類算法,核心思想是:把對象劃分為X類,使每個類中的對象到該類中心點的距離平方和為最小。其中,聚類中心通過計算聚類點的均值獲得,類的個數(shù)X在開始時未知,可在多次嘗試之后,選一個使得距離平方和最小的值作為類別數(shù)[5],算法流程見圖1。K-Means算法在對象密集且對象簇之間的差異較為顯著的情況下聚類效果較好,且一般適用于連續(xù)變量的聚類分析,鑒于此特點與本文中數(shù)據(jù)對象特性吻合,因此選擇該算法來對“行政區(qū)劃”進行聚類分析?! ?基于數(shù)據(jù)挖掘技術(shù)的分類模型研究 3.1數(shù)據(jù)準(zhǔn)備 XX市現(xiàn)有行政區(qū)劃取值十分離散,對貨源投放無任何指導(dǎo)價值,將其過濾為76個鄉(xiāng)鎮(zhèn)。采集到的樣本數(shù)據(jù)包括
6、轄區(qū)面積、人口數(shù)量、工業(yè)總產(chǎn)值、財政收入、人均總產(chǎn)值、經(jīng)濟實力、客戶個數(shù)等7個屬性?! ?.2相關(guān)性分析和回歸分析 3.2.1相關(guān)性分析 各指標(biāo)之間的相關(guān)性見表1,分析可知,人口數(shù)量很大程度決定客戶個數(shù),且人口數(shù)量和經(jīng)濟實力相關(guān)性很強。 3.2.2人口數(shù)量和客戶個數(shù)回歸分析 ?。?)人口數(shù)量與客戶個數(shù)的關(guān)系 以人口數(shù)量和客戶個數(shù)為坐標(biāo)對其擬合,當(dāng)采用二次函數(shù)可達到最好效果,擬合方程如式所示?! y=2.2808x2+16.5648x+0.2321] 以上分析說明:某一“行政區(qū)劃”5客戶個數(shù)與人口數(shù)量成正比關(guān)系。由此可從市場角度推斷,人口基數(shù)越大,卷煙需求總量越大。 ?。?/p>
7、3)客戶個數(shù)與人口及經(jīng)濟的回歸分析 以人口數(shù)量和經(jīng)濟實力為輸入,以客戶個數(shù)為結(jié)果,建立回歸模型,擬合方程如式所示。 [z=0.3067+9.2899x-0.0136y+0.0376xy] 式中,x代表人口數(shù)量,y代表經(jīng)濟實力,z代表客戶個數(shù)。由回歸方程可知:人口數(shù)量和經(jīng)濟實力可以決定客戶個數(shù)。 4K-Means聚類算法建立分類模型 4.1屬性選取 以客戶個數(shù)為輸出,對其他各屬性按相關(guān)系數(shù)從大到小排列(表2)。 考慮到聚類變量間不應(yīng)有較強的線性相關(guān)性,最終