資源描述:
《Statistics and Data Mining》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、統(tǒng)計學(xué)與DataMining中華資料采礦協(xié)會理事長輔仁大學(xué)統(tǒng)計資訊學(xué)系教授謝邦昌教授、摘要:本文首先回顧統(tǒng)計學(xué)理論體系的形成和發(fā)展,重點探討EDA之后,統(tǒng)計研究思路的轉(zhuǎn)型。伴隨著信息技術(shù)的發(fā)展,傳統(tǒng)統(tǒng)計學(xué)的理論和方法,需要新的表現(xiàn)形式。最后,根據(jù)統(tǒng)計學(xué)和資料采礦可能的結(jié)合點,展望統(tǒng)計學(xué)和資料采礦的未來。關(guān)鍵詞:統(tǒng)計學(xué);資料采礦;信息技術(shù)前言在信息飛速發(fā)展的時代,軟件的運算效率大幅提高,硬件的數(shù)據(jù)處理速度不斷更新,大量數(shù)據(jù)的存取、查詢、描述統(tǒng)計等技術(shù)已日臻完善。與此同時,由于高層的決策分析、知識發(fā)現(xiàn)等的相對滯
2、后,導(dǎo)致了“信息爆炸”但“知識貧乏”的現(xiàn)象,資料采礦(DataMining,簡稱DM)概念的誕生。Fayyad,Piatetsky-Shapiro和Smyth于1997年指出:知識發(fā)現(xiàn)(KnowledgeDiscoveryfromDatabases,簡稱KDD)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程,數(shù)據(jù)采礦則是此過程中的關(guān)鍵步驟。一般認為,資料采礦是從大量的、不完全、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在數(shù)據(jù)中的,人們事先不知道的,但又是潛在有用的知識的技術(shù)和過程。數(shù)據(jù)采礦因其巨大的商業(yè)前景,現(xiàn)已成為國際
3、上數(shù)據(jù)庫和信息決策領(lǐng)域最前沿的研究方向之一,并引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。統(tǒng)計學(xué)是搜集、展示、分析、及解釋資料的科學(xué)。數(shù)據(jù)采礦的大部分核心功能的實現(xiàn)都以統(tǒng)計分析方法作為支撐。這些核心方法體現(xiàn)在數(shù)據(jù)采礦的五大核心功能之中:聚類、估計、預(yù)測、關(guān)聯(lián)分組以及分類等。從國際上來看,資料采礦的研究重點也逐漸從最初的提出概念和發(fā)現(xiàn)方1法,轉(zhuǎn)向系統(tǒng)應(yīng)用方面。在應(yīng)用方面,由于過分強調(diào)軟件和模型的作用,缺乏系統(tǒng)、科學(xué)的理論體系的指導(dǎo),也使應(yīng)用數(shù)據(jù)采礦技術(shù)陷入一些困境。本文首先回顧統(tǒng)計學(xué)理論體系的形成和發(fā)展,重點探討EDA之
4、后,統(tǒng)計研究思路的轉(zhuǎn)型。伴隨著信息技術(shù)的發(fā)展,傳統(tǒng)統(tǒng)計學(xué)的理論和方法,需要新的表現(xiàn)形式。最后,根據(jù)統(tǒng)計學(xué)和資料采礦可能的結(jié)合點,展望統(tǒng)計學(xué)和資料采礦的未來。統(tǒng)計數(shù)據(jù)分析在計算機時代的應(yīng)用許多一些我們所熟悉的統(tǒng)計方法中,例如假設(shè)檢定、線性回歸分析、變異數(shù)分析,以及最大概似估計方法等等。這些統(tǒng)計方法都是利用機械式的計算器來設(shè)計執(zhí)行的,而現(xiàn)在的電子計算器可以幫助我們發(fā)展出一些新的統(tǒng)計方法,對于分配假設(shè)的限制并不像傳統(tǒng)的分配假設(shè)那樣的多,而且可以應(yīng)用到更多更復(fù)雜的統(tǒng)計估計式。這些方法給予了一些科學(xué)家去探究以及描述資
5、料,而且推導(dǎo)出有確實根據(jù)的統(tǒng)計推論。一個很重要的原因是傳統(tǒng)的數(shù)學(xué)分析方法被計算機算法所取代,但是傳統(tǒng)的數(shù)學(xué)觀念及基礎(chǔ)并不會因為計算機的快速發(fā)展而從統(tǒng)計理論當中消失。對于統(tǒng)計推論算法的正確性及有效性,數(shù)學(xué)仍然是最主要的分析方法。大多數(shù)的科學(xué)家在面對資料分析的問題時,都會問“我該收集什么數(shù)據(jù)”,“從數(shù)據(jù)中我可以下什么結(jié)論”或是“對于結(jié)果,我可以相信多少”等等之類的問題。其實統(tǒng)計學(xué)是一門數(shù)學(xué)的科學(xué),它是用來處理類似這些的問題。處理問題所用的一些統(tǒng)計方法例如假設(shè)檢定、線性回歸分析、標準誤及信賴區(qū)間等等,這些都是我們
6、在科學(xué)上所熟悉的統(tǒng)計方法。許多傳統(tǒng)的統(tǒng)計方法是發(fā)展于1920年到1950年之間,而在這些期間的統(tǒng)計學(xué)家包括了R.A.Fisher,J.Neyman及H.Hoteling等等。到了1980年代,因為計算機的快速發(fā)展,2使得統(tǒng)計的理論以及新的統(tǒng)計方法論受到計算機有很震撼的影響。在這篇文章中,我將敘述在計算機應(yīng)用上一些發(fā)展不錯的統(tǒng)計方法論,包括了bootstrapmethod,nonparametricregression,generalizedadditivemodels及classificationandre
7、gressiontrees。文章中我們主要是在敘述,而并沒有提到太多數(shù)學(xué)的發(fā)展,然而我也將試當來表示出數(shù)學(xué)所扮演的重要性角色在一些新的統(tǒng)計方法上。(一)TheBootstrap統(tǒng)計資料分析的基礎(chǔ)是建立在datasetX中。我們?nèi)ビ嬎阋粋€統(tǒng)計量t(X),目的是為了對有興趣的數(shù)量做估計。如在Box1中有一筆9位男性膽固醇減少的分數(shù),這些分數(shù)是從164位男性的分數(shù)中隨機抽出且經(jīng)過了排序。所以datasetX中有9個分數(shù),而t(x)=x?21.0+3.25+10.75+13.75+32.50+39.50+41.75
8、+56.75+80.0x=9=28.583x=28.58所代表的意思是指對于實際膽固醇減少的分數(shù)之估計值(而實際值的獲得是假設(shè)我們從很多的scores中所觀察得到的)。那么t(x)是如何的準確呢?簡單的來說,假如t(x)是x1,?,xn的平均數(shù)x,則x的標準差(root-mean-square-error)可以表示成1?n?22?∑(xi?x)??i=1?------------------------(1)se