資源描述:
《R語(yǔ)言應(yīng)用_數(shù)據(jù)挖掘.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、Teradata數(shù)據(jù)挖掘之R語(yǔ)言應(yīng)用交流Yinbinfeng2014.11Agenda一、R語(yǔ)言基礎(chǔ)介紹二、如何使用R語(yǔ)言及思考三、R語(yǔ)言應(yīng)用案例(1)基于熵值法指標(biāo)權(quán)重設(shè)定因子分析評(píng)估(2)R自回歸指標(biāo)預(yù)測(cè)(3)基于二次規(guī)則的馬科維茨資產(chǎn)組合2?2014Teradata什么是R語(yǔ)言?R語(yǔ)言是統(tǒng)計(jì)挖掘的繪圖語(yǔ)言,也是實(shí)現(xiàn)該語(yǔ)言的軟件。3?2014TeradataR語(yǔ)言的特點(diǎn)多領(lǐng)域的統(tǒng)計(jì)資源?目前在R網(wǎng)站上約有近6000個(gè)包,涵蓋了基礎(chǔ)統(tǒng)計(jì)學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、生態(tài)學(xué)、空間分析、系統(tǒng)發(fā)育分析、生物信息學(xué)等諸多方面??缙脚_(tái)?R可在多種操作系統(tǒng)上運(yùn)行,如Windows、Ma
2、cOS、多種Linux和UNIX等。命令行驅(qū)動(dòng)?R即時(shí)解釋?zhuān)斎朊?,即可獲得相應(yīng)的結(jié)果。4?2014Teradata為什么選擇R語(yǔ)言5?2014TeradataR和其它統(tǒng)計(jì)軟件的比較EXCEL無(wú)需編程,所見(jiàn)即所得,重在數(shù)據(jù)的整理,能滿意絕大部分常規(guī)統(tǒng)計(jì)分析SAS速度快,有大量統(tǒng)計(jì)分析模塊,可擴(kuò)展性稍差,且價(jià)格昂貴SPSSStatistics簡(jiǎn)單的圖型操作界面,簡(jiǎn)單易學(xué),但編程十分困難SPSSModelerS+運(yùn)行S語(yǔ)言,具有復(fù)雜的界面,與R完全兼容,且價(jià)格昂貴6?2014TeradataR語(yǔ)言的缺點(diǎn)7?2014TeradataR開(kāi)發(fā)常用開(kāi)源工具--RStudio?
3、RStudio是當(dāng)前R開(kāi)發(fā)最流量的開(kāi)源工具之一,主要功能介紹如下:R代碼區(qū)R運(yùn)行對(duì)象R運(yùn)行結(jié)果R圖型展示區(qū)及幫助區(qū)8?2014TeradataR程序包(RPackages)9?2014TeradataR常用程序包介紹(1)RPackage名稱(chēng)R描述abindCombinemulti-dimensionalarrayscaret分類(lèi)與回歸預(yù)測(cè)ccgarch基于異分差條件回歸預(yù)測(cè)模型datasetsR數(shù)據(jù)集包Features特征選擇foreachForeachloopingconstructforRForecast時(shí)間序列與線性回歸模型ggplostR繪圖包iterat
4、orsIteratorconstructforRMatrixSparseandDenseMatrixClassesandmethods10?2014TeradataR常用程序包介紹(2)RPackage名稱(chēng)R描述bootB值檢驗(yàn)cluster聚類(lèi)分析mboosting模型為基礎(chǔ)的提升(包含眾多預(yù)測(cè)模,如最小二乘法)ForeachForeachloopingconstructforRforeignReadDataStoredbyS.SAS,SPSS,dBASEparallel支撐數(shù)據(jù)的并行計(jì)算penalizedSVMSVM向量機(jī)分類(lèi)模型RODBCODBCDatabas
5、eAccessXLConnectExcelConnectorforRtimeData時(shí)間序列對(duì)象11?2014TeradataR常用程序包介紹(3)RPackage名稱(chēng)R描述nlme線性回歸和非線性回歸statsT值檢驗(yàn)、B檢驗(yàn)、F檢驗(yàn)、線性回歸、廣義回歸party決策樹(shù)分析模型包strings字符串類(lèi)……12?2014TeradataR語(yǔ)言基礎(chǔ)對(duì)象—(1)數(shù)字向量?向量是有相同基本類(lèi)型的元素序列,即一維數(shù)組,定義向量的最常用辦法是使用函數(shù)c(),R中用符號(hào)“<-”、“=”來(lái)為變量賦值,如:>x=c(1:3,10:13)>x[1]12310111213?可以對(duì)向量進(jìn)
6、行加(+)減(-)乘(*)除(/)、乘方(^)運(yùn)算,其含意是對(duì)向量的每一個(gè)元素進(jìn)行運(yùn)算。如:>x<-c(1,4,6.25)>y=x*2+1>y[1]3.09.013.513?2014TeradataR語(yǔ)言基礎(chǔ)對(duì)象—(2)邏輯向量?向量可以取邏輯值,如:>l=c(T,T,F)>l輸出[1]TRUETRUEFALSE當(dāng)然,邏輯向量往往是一個(gè)比較的結(jié)果,如:>x輸出[1]1.004.006.25>l=x>3>l輸出[1]FALSETRUETRUE?一個(gè)向量與常量比較大小,結(jié)果還是一個(gè)向量,元素為每一對(duì)比較的結(jié)果邏輯值。如:>log(10*x)[1]2.3025853.68
7、88794.135167>log(10*x)>x輸出[1]TRUEFALSEFALSE比較運(yùn)算符包括<,<=,>,>=,==,!=。14R語(yǔ)言基礎(chǔ)對(duì)象—(2.1)取邏輯值的下標(biāo)向量?如:v為和x等長(zhǎng)的邏輯向量,x[v]表示取出所有v為真值的元素,如:?>x輸出:[1]1.00125.006.25?>x<10輸出:[1]TRUEFALSETRUE?>x[x<10]輸出:[1]1.006.25?>x[x<0]輸出:numeric(0)?可見(jiàn)x[x<10]取出所有小于10的元素組成的子集。?這種邏輯值下標(biāo)是一種強(qiáng)有力的檢索工具,例如x[sin(x)>0]可以取出x中所