資源描述:
《多元統(tǒng)計(jì)分析期末復(fù)習(xí)試題》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、.第一章:多元統(tǒng)計(jì)分析研究的內(nèi)容(5點(diǎn))1、簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)(主成分分析)2、分類與判別(聚類分析、判別分析)3、變量間的相互關(guān)系(典型相關(guān)分析、多元回歸分析)4、多維數(shù)據(jù)的統(tǒng)計(jì)推斷5、多元統(tǒng)計(jì)分析的理論基礎(chǔ)第二三章:二、多維隨機(jī)變量的數(shù)字特征1、隨機(jī)向量的數(shù)字特征隨機(jī)向量X均值向量:隨機(jī)向量X與Y的協(xié)方差矩陣:當(dāng)X=Y時(shí)Cov(X,Y)=D(X);當(dāng)Cov(X,Y)=0,稱X,Y不相關(guān)。隨機(jī)向量X與Y的相關(guān)系數(shù)矩陣:2、均值向量協(xié)方差矩陣的性質(zhì)(1).設(shè)X,Y為隨機(jī)向量,A,B為常數(shù)矩陣E(AX)=AE(X);E(AXB)=AE(X)B;D(AX)=AD
2、(X)A’;Cov(AX,BY)=ACov(X,Y)B’;...(2).若X,Y獨(dú)立,則Cov(X,Y)=0,反之不成立.(3).X的協(xié)方差陣D(X)是對(duì)稱非負(fù)定矩陣。例2.見黑板三、多元正態(tài)分布的參數(shù)估計(jì)2、多元正態(tài)分布的性質(zhì)(1).若 ,則E(X)=,D(X)=.特別地,當(dāng)為對(duì)角陣時(shí),相互獨(dú)立。(2).若,A為sxp階常數(shù)矩陣,d為s階向量,AX+d~.即正態(tài)分布的線性函數(shù)仍是正態(tài)分布.(3).多元正態(tài)分布的邊緣分布是正態(tài)分布,反之不成立.(4).多元正態(tài)分布的不相關(guān)與獨(dú)立等價(jià).例3.見黑板.三、多元正態(tài)分布的參數(shù)估計(jì)(1)“ 為來自
3、p元總體X的(簡(jiǎn)單)樣本”的理解---獨(dú)立同截面.(2)多元分布樣本的數(shù)字特征---常見多元統(tǒng)計(jì)量樣本均值向量 = 樣本離差陣S= 樣本協(xié)方差陣V=S ;樣本相關(guān)陣R(3) ,V分別是 和 的最大似然估計(jì);(4)估計(jì)的性質(zhì)是 的無(wú)偏估計(jì);,V分別是 和 的有效和一致估計(jì); ?。唬印?,與S相互獨(dú)立;第五章聚類分析:一、什么是聚類分析:聚類分析是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法。用于對(duì)事物類別不清楚,甚至事物總共可能有幾類都不能確定的情況下進(jìn)行事物分類的場(chǎng)合。聚類方法:系統(tǒng)聚類法(直觀易懂)、動(dòng)
4、態(tài)聚類法(快)、有序聚類法(保序)......Q-型聚類分析(樣品)R-型聚類分析(變量)變量按照測(cè)量它們的尺度不同,可以分為三類:間隔尺度、有序尺度、名義尺度。二、常用數(shù)據(jù)的變換方法:中心化變換、標(biāo)準(zhǔn)化變換、極差正規(guī)化變換、對(duì)數(shù)變換(優(yōu)缺點(diǎn))1、中心化變換(平移變換):中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個(gè)變量的樣本平均值,再?gòu)脑紨?shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。不改變樣本間的相互位置,也不改變變量間的相關(guān)性。2、標(biāo)準(zhǔn)化變換:首先對(duì)每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。經(jīng)過標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)
5、據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。3、極差正規(guī)化變換(規(guī)格化變換):規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差。經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個(gè)變量的最大數(shù)值為1,最小數(shù)值為0,其余數(shù)據(jù)取值均在0-1之間;且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。4、對(duì)數(shù)變換:對(duì)數(shù)變換是將各個(gè)原始數(shù)據(jù)取對(duì)數(shù),將原始數(shù)據(jù)的對(duì)數(shù)值作為變換后的新值。它將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)變換為線性數(shù)據(jù)結(jié)構(gòu)。三、樣品間
6、相近性的度量研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種:距離...,它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類;相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無(wú)關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類。 樣品之間的聚類即Q型聚類分析,則常用距離(統(tǒng)計(jì)量)來測(cè)度樣品之間的親疏程度;而變量之間的聚類即R型聚類分析,常用相似系數(shù)(統(tǒng)計(jì)量)來測(cè)度變量之間的親疏程度。1、距離的算法:明氏距離蘭氏距離斜交空間距離馬氏距離2、相似系數(shù)
7、的算法:夾角余弦相似系數(shù)3、樣品分類和指標(biāo)分類:對(duì)樣品分類常用距離,對(duì)指標(biāo)分類常用相似系數(shù)4、明氏(Minkowski)距離的兩個(gè)缺點(diǎn):①明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說清,而且,任何一個(gè)變量計(jì)量單位的改變都會(huì)使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇。②明氏距離的定義沒有考慮各個(gè)變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡(jiǎn)單地進(jìn)行了綜合.5、相似系數(shù):通常所說相關(guān)系數(shù),一般指變量間
8、的相關(guān)系數(shù),作為刻劃樣品間的相似關(guān)系也可類似給出定義,即第i個(gè)樣品與第j個(gè)樣品之間的相似系數(shù)定