資源描述:
《《定性數(shù)據(jù)》PPT課件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、定性數(shù)據(jù)統(tǒng)計(jì)分析CategoricalDataAnalysis教學(xué)內(nèi)容第一章定性數(shù)據(jù)第二章分類數(shù)據(jù)的檢驗(yàn)第三章四格表第四章二維列聯(lián)表第五章高維列聯(lián)表第六章邏輯斯蒂回歸模型第七章對(duì)數(shù)線性模型第八章列聯(lián)表的對(duì)應(yīng)分析第一章定性數(shù)據(jù)什么是定性數(shù)據(jù)?數(shù)據(jù)的類型——根據(jù)數(shù)據(jù)的取值來(lái)分:1.計(jì)量數(shù)據(jù)(ContinuousData):身高、體重等;取值為任意實(shí)數(shù)2.計(jì)數(shù)數(shù)據(jù)(Counts):職工人數(shù)、成交股票數(shù)等;取值為非負(fù)整數(shù)3.名義數(shù)據(jù)(NominalData):性別、婚姻狀況等;取值為屬性編碼4.有序數(shù)據(jù)(OrdinalData):文化程度、滿意度等;取
2、值為可排序的屬性編碼第一章定性數(shù)據(jù)定性數(shù)據(jù)的描述性統(tǒng)計(jì)方法有表格法、圖示法、數(shù)值法1、表格法【例】向50個(gè)被訪者調(diào)查“你最喜歡喝的飲料”,得到表1.1。以上數(shù)據(jù)經(jīng)按類別整理后,可得到頻數(shù)分布表,見表1.2。制作有序數(shù)據(jù)的頻數(shù)分布表時(shí),還可以統(tǒng)計(jì)累積頻數(shù)和累積頻率,見表1.3。第一章定性數(shù)據(jù)如果我們想考察這些飲料受歡迎程度與性別的關(guān)系,可以制作飲料與性別的交叉分組表,見表1.4。顯然,這種表有利于我們進(jìn)一步發(fā)現(xiàn)受歡迎程度與性別之間的關(guān)系。類似地有三種、或更多種方式分組的交叉表,即列聯(lián)表(contingencytable)。第一章定性數(shù)據(jù)2、圖示法
3、包括條形圖、圓形圖(表1.4)、排列圖等其中的排列圖,又叫帕累托圖,是按照發(fā)生頻率大小順序繪制的條形圖;表示有多少結(jié)果是由已確認(rèn)類型或范疇的原因所造成;將出現(xiàn)的質(zhì)量問(wèn)題和質(zhì)量改進(jìn)項(xiàng)目按照重要程度依次排列而采用的一種圖表;可以用來(lái)分析質(zhì)量問(wèn)題,確定產(chǎn)生質(zhì)量問(wèn)題的主要因素。帕累托圖(ParetoChart)通常用雙坐標(biāo)系表示,左邊縱坐標(biāo)表示頻數(shù),右邊縱坐標(biāo)表示頻率,分析線表示累積頻率;橫坐標(biāo)表示影響質(zhì)量的各項(xiàng)因素,按影響程度的大小(即出現(xiàn)頻數(shù)多少)從左到右排列;通常將累積頻率0~80%之間的因素認(rèn)為是影響質(zhì)量的主要因素。(見附錄1)第一章定性數(shù)據(jù)3
4、、數(shù)值法即用代表性的數(shù)值描述定性數(shù)據(jù)的統(tǒng)計(jì)分布特征。代表性的數(shù)值有兩類:描述定性數(shù)據(jù)的中心位置描述定性數(shù)據(jù)的離散程度中心位置:眾數(shù)、中位數(shù)、百分位數(shù)離散程度:異眾比率、G-S指數(shù)、熵眾數(shù)數(shù)據(jù)中出現(xiàn)頻數(shù)最高的數(shù)據(jù)值,記為Mo如上例中,“可口可樂”是眾數(shù);適用于定性名義數(shù)據(jù)中心位置的量度;眾數(shù)的性質(zhì)略。中位數(shù)將數(shù)據(jù)按一定順序排列后位于中間的數(shù)值,記為Me;例:游客對(duì)服務(wù)態(tài)度的評(píng)價(jià)(%)適用于定性有序數(shù)據(jù)中心位置的量度。百分位數(shù)百分位數(shù)是對(duì)數(shù)據(jù)位置的量度,但不一定是中心位置;一般地,第p百分位數(shù)是指,至少有p%的數(shù)據(jù)項(xiàng)小于等于這個(gè)值,且至少有(100
5、-p)%的數(shù)據(jù)項(xiàng)大于等于這個(gè)值;第25百分位數(shù)稱為下四分位數(shù),記為QL,第50百分位數(shù)就是中位數(shù),第75百分位數(shù)稱為上四分位數(shù),記為QU;異眾比率用于定性名義數(shù)據(jù)離散程度的度量,記為V:離異比率越小,說(shuō)明數(shù)據(jù)越集中;此外,還可以利用隨機(jī)變量來(lái)刻畫定性數(shù)據(jù)的離散程度;比如,隨機(jī)變量ξ,可以取等不同的值,相應(yīng)的概率為即:Gini-Simpson指數(shù)基尼-辛卜生指數(shù)簡(jiǎn)稱G-S指數(shù)隨機(jī)變量ξ的G-S指數(shù)記為G-S(ξ)G-S指數(shù)越小,說(shuō)明隨機(jī)變量ξ的分布越集中;G-S指數(shù)越大,則分布越分散。當(dāng)k=2,時(shí),G-S指數(shù)達(dá)到最大值,即均勻分布時(shí)指數(shù)達(dá)到最大(
6、見附錄2)。熵隨機(jī)變量ξ的熵(entropy)記為H(ξ):在的條件下,衡量給定分布與均勻分布接近的程度。越接近于均勻分布,越處于平衡狀態(tài),即離散程度越大,熵的取值越大,最大值為;反之也反。(見附錄2)定性數(shù)據(jù)離散程度的測(cè)度【例】最喜歡的飲料的頻數(shù)分布表1、用離異比率測(cè)度:若將數(shù)據(jù)稍作調(diào)整為:則飲料頻數(shù)頻率可口可樂蘋果汁橘子汁百事可樂杏仁露2565595012101018合計(jì)50100定性數(shù)據(jù)離散程度的測(cè)度2、用G-S指數(shù)測(cè)度:調(diào)整前,調(diào)整后,3、用熵測(cè)度:調(diào)整前,調(diào)整后,定性數(shù)據(jù)離散程度的測(cè)度如果前例中每種飲料的頻數(shù)相同,那么各自的G-S指數(shù)
7、和熵分別為多少呢?當(dāng)均勻分布時(shí),定性數(shù)據(jù)的離散程度達(dá)到最大G-S指數(shù)的最大值為:熵的最大值為:本章小結(jié)定性數(shù)據(jù)的類型運(yùn)用頻數(shù)分布表整理數(shù)據(jù),并計(jì)算頻率繪出條形圖、餅圖、帕累托圖描述定性數(shù)據(jù)的中心位置和離散程度