基于主成分分析方法的軟件缺陷預(yù)測研究

基于主成分分析方法的軟件缺陷預(yù)測研究

ID:41584788

大小:76.18 KB

頁數(shù):4頁

時間:2019-08-28

基于主成分分析方法的軟件缺陷預(yù)測研究_第1頁
基于主成分分析方法的軟件缺陷預(yù)測研究_第2頁
基于主成分分析方法的軟件缺陷預(yù)測研究_第3頁
基于主成分分析方法的軟件缺陷預(yù)測研究_第4頁
資源描述:

《基于主成分分析方法的軟件缺陷預(yù)測研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于主成分分析方法的軟件缺陷預(yù)測研究摘要軟件測試作為保證軟件質(zhì)量的一個重要手段,在國內(nèi)外受到廣泛重視,并進行了多年研究。通俗地講,軟件測試是發(fā)現(xiàn)并指出軟件系統(tǒng)缺陷的過程口]。在統(tǒng)計學(xué)中,主成分分析方法比較適合對綜合狀況進行預(yù)測。因此考慮將主成分分析方法引入軟件缺陷預(yù)測領(lǐng)域,以提高軟件開發(fā)質(zhì)量和效率。關(guān)鍵詞主成分分析軟件缺陷=(x1,x2,...,xp)1n-1主成分分析算法(PrincipleComponentAnalysis,PCA)主成分分也稱為KL變換[2]。它是一種常用的特征提取方法,這種技術(shù)可以在保證信息損失最少的前提下,對高維變量空間進行降維處理,它依據(jù)特征值大小

2、選擇特征向量,消除了特征向量的相關(guān)性,從一定意義上體現(xiàn)了特征向量中不同維度的識別結(jié)果貢獻的大小不同。1.1PCA的主要思想主成分分析是采収一種數(shù)學(xué)降維的方法[3],找出幾個綜合變量來代替原來眾多的變量,使這些綜合變量能盡可能地代農(nóng)原來變量的信息量,而且彼此Z間互不相關(guān)。通常,數(shù)學(xué)上的處理方法就是將原來的變量做線性組合,作為新的綜合變量。如果將選収的第一個線性組合即笫一個綜合變產(chǎn)記為耳,自然希望它盡可能多地反映原來變最的信息,這里“信息”用方差來測量,即希望var(F,)越大,表示片包含的信息越多。因此在所有的線性組合中所選取的片應(yīng)該是方差最大的,故稱片為第一主成分。如果第一主成

3、分不足以代表原來p個變量的信息,再考慮選取F2即第二個線性組合,為了有效地反映原來信息,片已有的信息就不需耍再出現(xiàn)在幾中,用數(shù)學(xué)語言表達就是要求cov(FpF2)=0,稱場為第二主成分[4],依此類推可以構(gòu)造出第P個主成分。1.2PCA的過程對于一個樣本數(shù)據(jù),觀測到P個變量X

4、,X2,...,X/,、n個樣品的數(shù)據(jù)陣為:X]]X]2…X]pX21X22-*-X2pX“j第一步:對數(shù)據(jù)進行標準化處理豪X.;一x{Xjj=/(2=1,2,???屮;丿=1,2,???,〃)Jvarg)£(列一兀)2(J=l,2,??,p)i=第二步:計算樣木和關(guān)系數(shù)矩陣n-1第三步:用雅克比方法求

5、和關(guān)系數(shù)矩陣R的特征值(人,心…,州)和對應(yīng)的特征向量%=(%i,%2,???,%J7Z=1,2,...,p第四步:選擇重耍的主成分,并寫出主成分表達式主成分分析可以得到p個主成分,但是,山于各個主成分的方差是遞減的,包含的信息量也是遞減的,所以實際分析時,-般不是選取p個主成分,而是根據(jù)各個主成分累計貢獻率的大小選取前k個主成分。笫i個主成分為:E=(X],X]X卩)(Q‘],d/2,)=aiixl+ai2x2+...^aipxp這里貢獻率就是指某個主成分的方差占全方差的比貳,實際也就是某個特征值占全部特征值合計的比重。即:貞獻率=人/工人i=i貢獻率越大,說明該主成分所包

6、含的原始變量的信息越強。主成分個數(shù)k的選取,主要根據(jù)主成分的累積貢獻率來決定:累計貢獻率=£人/£人/=!/=1-般要求累計貢獻率達到85%以上,這樣才可還要注意主成分實際含義解釋。主成分分析中一個很關(guān)鍵的問題是如何給主成分賦予新的意義,給出合理的解釋。-般而言,這個解釋是根據(jù)主成分表達式的系數(shù)結(jié)合定性分析來進行的。主成分是原來變量的線性組合,在這個線性組合中個變量的系數(shù)有大有小有正有負,有的大小相當(dāng),因而不能簡單地認為這個主成分是某個原變量的屬性的作用,線性紐?合中各變量系數(shù)的絕對值人者衣明該主成分主要綜合了絕對值大的變量,有兒個變量系數(shù)大小相當(dāng)時,應(yīng)認為這一主成分是這兒個變

7、量的總和,這兒個變疑綜合在一起應(yīng)賦了怎樣的實際意義,這要結(jié)合具體實際問題和專業(yè),給出恰當(dāng)?shù)慕忉?,進而才能達到深刻分析的目的。第五步:計算主成分得分。根據(jù)標準化的原始數(shù)據(jù),按照各個樣品,分別代入主成分表達式,就可以得到各主成分下的各個樣品的新數(shù)據(jù),即為主成分得分。第六步:依據(jù)主成分得分的數(shù)據(jù),則可以進行進一步的統(tǒng)計分析。其中,常見的應(yīng)用有主成份回歸,變量子集合的選擇,綜合評價等。2.基于PCA方法的軟件缺陷預(yù)測要預(yù)測軟件項1-1中的缺陷,根據(jù)缺陷預(yù)測的步驟,應(yīng)該分為三步:獲得度量元,構(gòu)造預(yù)測模型,分析預(yù)測結(jié)果。2.1缺陷預(yù)測指標(度量元)的獲得木文用源代碼行數(shù)(SLOC)來刻畫軟

8、件項目的規(guī)模,以用不同的語言開發(fā)366個功能點的項目為例,分別用]BM模型、COCOMO模型和Putnam方法!口口SI.OC估算模型工作量(PM/人月)開發(fā)時間IBM模型77.247.33C++19.398KCOCOMO模型83.0647.2Putnam方法論79.4721.35IBM模型28.914.06Dephi6.588KCOCOMO模世72.6853.52Putnam方法論58.5237.8IBM模型37.394.74VB8.784KCOCOMO模塑97.7959.91Putnti

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。