資源描述:
《數(shù)據(jù)分析和可視化》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、數(shù)據(jù)分析與可視化1.什么是數(shù)據(jù)分析?數(shù)據(jù)分析是基于商業(yè)目的,有目的的進行收集、整理、加工和分析數(shù)據(jù),提煉有價信息的一個過程。其過程概括起來主要包括:明確分析目的與框架、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)和撰寫報告等6個階段。1、明確分析目的與框架一個分析項目,你的數(shù)據(jù)對象是誰?商業(yè)目的是什么?要解決什么業(yè)務(wù)問題?數(shù)據(jù)分析師對這些都要了然于心?;谏虡I(yè)的理解,整理分析框架和分析思路。例如,減少新客戶的流失、優(yōu)化活動效果、提高客戶響應(yīng)率等等。不同的項目對數(shù)據(jù)的要求,使用的分析手段也是不一樣的。2、數(shù)據(jù)收集數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析和框架內(nèi)容,有目的的收集、整合相關(guān)數(shù)據(jù)的一個過程,它是數(shù)
2、據(jù)分析的一個基礎(chǔ)。3、數(shù)據(jù)處理數(shù)據(jù)處理是指對收集到的數(shù)據(jù)進行加工、整理,以便開展數(shù)據(jù)分析,它是數(shù)據(jù)分析前必不可少的階段。這個過程是數(shù)據(jù)分析整個過程中最占據(jù)時間的,也在一定程度上取決于數(shù)據(jù)倉庫的搭建和數(shù)據(jù)質(zhì)量的保證。數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化等處理方法。4、數(shù)據(jù)分析數(shù)據(jù)分析是指通過分析手段、方法和技巧對準備好的數(shù)據(jù)進行探索、分析,從中發(fā)現(xiàn)因果關(guān)系、內(nèi)部聯(lián)系和業(yè)務(wù)規(guī)律,為商業(yè)目提供決策參考。到了這個階段,要能駕馭數(shù)據(jù)、開展數(shù)據(jù)分析,就要涉及到工具和方法的使用。其一要熟悉常規(guī)數(shù)據(jù)分析方法,最基本的要了解例如方差、回歸、因子、聚類、分類、時間序列等多元和數(shù)據(jù)分析方法的原理、使用范圍、優(yōu)缺
3、點和結(jié)果的解釋;其二是熟悉1+1種數(shù)據(jù)分析工具,Excel是最常見,一般的數(shù)據(jù)分析我們可以通過Excel完成,后而要熟悉一個專業(yè)的分析軟件,如數(shù)據(jù)分析工具SPSS/SAS/R/Matlab等,便于進行一些專業(yè)的統(tǒng)計分析、數(shù)據(jù)建模等。5、數(shù)據(jù)展現(xiàn)一般情況下,數(shù)據(jù)分析的結(jié)果都是通過圖、表的方式來呈現(xiàn),俗話說:字不如表,表不如圖。借助數(shù)據(jù)展現(xiàn)手段,能更直觀的讓數(shù)據(jù)分析師表述想要呈現(xiàn)的信息、觀點和建議。常用的圖表包括餅圖、折線圖、柱形圖/條形圖、散點圖、雷達圖等、金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。6、撰寫報告最后階段,就是撰寫數(shù)據(jù)分析報告,這是對整個數(shù)據(jù)分析成果的一個呈現(xiàn)。通過分析報告,把數(shù)
4、據(jù)分析的目的、過程、結(jié)果及方案完整呈現(xiàn)出來,以供商業(yè)目的提供參考。一份好的數(shù)據(jù)分析報告,首先需要有一個好的分析框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。結(jié)構(gòu)清晰、主次分明可以使閱讀者正確理解報告內(nèi)容;圖文并茂,可以令數(shù)據(jù)更加生動活潑,提高視覺沖擊力,有助于閱讀者更形象、直觀地看清楚問題和結(jié)論,從而產(chǎn)生思考。另外,數(shù)據(jù)分析報告需要有明確的結(jié)論、建議和解決方案,不僅僅是找出問題,后者是更重要的,否則稱不上好的分析,同時也失去了報告的意義,數(shù)據(jù)的初衷就是為解決一個商業(yè)目的才進行的分析,不能舍本求末。2.數(shù)據(jù)分析常用的方法有哪些?他們多用來分析哪些類型的數(shù)據(jù)?通過分析可以得到怎樣的結(jié)果
5、和結(jié)論?怎樣得到保證其信度和效度?常用數(shù)據(jù)分析方法:聚類分析、因子分析、相關(guān)分析、對應(yīng)分析、回歸分析、方差分析;數(shù)據(jù)分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點圖(scatterdiagram)、魚骨圖(Ishikawa)、FMEA、點圖、柱狀圖、雷達圖、趨勢圖。數(shù)據(jù)分析統(tǒng)計工具:SPSS、minitab、JMP。常用數(shù)據(jù)分析方法:1、聚類分析(ClusterAnalysis)?聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的
6、相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。2、因子分析(FactorAnalysis)?因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術(shù)。因子分析就是從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系,減少決策的困難。?因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發(fā)抽因法、拉奧典型抽因法等等。這些方法本質(zhì)上大都屬近似方法,是以相關(guān)系數(shù)矩陣為基礎(chǔ)的,所不同的是相關(guān)系數(shù)矩陣對角線上的值,采
7、用不同的共同性□2估值。在社會學(xué)研究中,因子分析常采用以主成分分析為基礎(chǔ)的反覆法。3、相關(guān)分析(CorrelationAnalysis)?相關(guān)分析(correlationanalysis),相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系,并對具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度。相關(guān)關(guān)系是一種非確定性的關(guān)系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,則X與Y顯然有關(guān)系,而又沒有確切到可由其中