資源描述:
《基于相似度匹配的軟件缺陷預(yù)測(cè)方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、為了確?!敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)?;谙嗨贫绕ヅ涞能浖毕蓊A(yù)測(cè)方法研究 摘要:針對(duì)跨項(xiàng)目缺陷預(yù)測(cè)中為目標(biāo)項(xiàng)目選擇合適的訓(xùn)練數(shù)據(jù)問(wèn)題,在已有相似度匹配方法的基礎(chǔ)上,引入項(xiàng)目情境信息,從而提出一種改進(jìn)的CPDP預(yù)測(cè)模型。實(shí)驗(yàn)結(jié)果表明:引入項(xiàng)目的情境信息,有助于提高CPDP性能;所提方法的F-measure值比已有方法提高了%和%,但相比WPDP方法,仍有待提高?! ?P鍵詞:軟件質(zhì)量保證;缺陷預(yù)測(cè);相似度匹配;訓(xùn)練數(shù)據(jù)選擇 DOIDOI:/
2、中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):1672--0009-03 0引言 軟件缺陷預(yù)測(cè)研究一直是軟件工程領(lǐng)域中的熱門方向,最早可以追溯到上世紀(jì)70年代。常規(guī)的方法是利用項(xiàng)目自身已有歷史數(shù)據(jù)訓(xùn)練預(yù)測(cè)模型后,再用于后續(xù)版本的缺陷預(yù)測(cè),即項(xiàng)目?jī)?nèi)缺陷預(yù)測(cè),如圖1所示。然而,已有研究表明訓(xùn)練高質(zhì)量的WPDP模型要求有充足的歷史數(shù)據(jù),這對(duì)一些新項(xiàng)目或還不活躍的軟件項(xiàng)目便難以滿足?! 〗┠陙?lái)隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,尤其是開源社區(qū)如為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備的作用,我們不僅把資源運(yùn)用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動(dòng),對(duì)學(xué)生進(jìn)行安全教育、健康教育
3、、反邪教教育等豐富學(xué)生的課余文化生活。為了確保“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)。Github的興起,互聯(lián)網(wǎng)上可供獲取的公開缺陷數(shù)據(jù)集越來(lái)越多,而且數(shù)量仍在不斷增長(zhǎng)。為有效利用互聯(lián)網(wǎng)上已有的豐富數(shù)據(jù)資源,一些研究者提出利用其它軟件項(xiàng)目的數(shù)據(jù)來(lái)訓(xùn)練,構(gòu)建跨項(xiàng)目的缺陷預(yù)測(cè)模型,用于解決WPDP中訓(xùn)練數(shù)據(jù)受限的瓶頸[1-5],如圖1所示,為軟件缺陷預(yù)測(cè)研究開辟了一條嶄新的途徑?! ≡贑PDP早期研究中,都是將來(lái)自其它軟件項(xiàng)目的所有數(shù)據(jù)作為訓(xùn)練集,并不涉及訓(xùn)練集
4、的精簡(jiǎn)。常常出現(xiàn)因訓(xùn)練數(shù)據(jù)包含過(guò)多噪聲,從而降低了模型準(zhǔn)確性[5]。在某種程度上,數(shù)據(jù)的質(zhì)量遠(yuǎn)比數(shù)量對(duì)CPDP性能的影響更大。然而,如何才能從大量的可供使用的缺陷數(shù)據(jù)中挑選出質(zhì)量更高的部分用于預(yù)測(cè)模型訓(xùn)練,仍然是CPDP研究中急需解決的一個(gè)問(wèn)題[6]?! ♂槍?duì)以上問(wèn)題,目前主要有兩種思路。一種是通過(guò)特征降維的方法減少冗余指標(biāo)信息,從而減少數(shù)據(jù)噪音來(lái)改善缺陷預(yù)測(cè)的性能和效率[7]。另一種方法則是本文將考慮的通過(guò)減少數(shù)據(jù)量來(lái)減少重復(fù)的無(wú)價(jià)值的實(shí)例[8]。在訓(xùn)練數(shù)據(jù)總量的精簡(jiǎn)方面,以往研究都只是根據(jù)數(shù)據(jù)的度量指標(biāo)信息進(jìn)行相似度匹配,再返回top-k個(gè)最相關(guān)的實(shí)例構(gòu)成新的訓(xùn)練數(shù)據(jù)集,但它們并沒
5、有充分考慮項(xiàng)目的情境信息。實(shí)踐中,每個(gè)項(xiàng)目的情境信息存在差異,例如項(xiàng)目的主題、服務(wù)對(duì)象、編程語(yǔ)言等。為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備的作用,我們不僅把資源運(yùn)用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動(dòng),對(duì)學(xué)生進(jìn)行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?!敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)。 本文在為CPDP預(yù)測(cè)選擇合適跨項(xiàng)目訓(xùn)練數(shù)據(jù)集時(shí),通過(guò)考慮項(xiàng)目的5個(gè)常規(guī)屬性信息,并利用自然語(yǔ)言處理中的TF-IDF技術(shù)將它們
6、量化,從而得到每個(gè)項(xiàng)目的情境信息向量。最后,結(jié)合項(xiàng)目的情境信息與項(xiàng)目中實(shí)例特征值計(jì)算數(shù)據(jù)集的相似度。本文的主要貢獻(xiàn)可歸納為: 引入項(xiàng)目的情境信息,提出一種改進(jìn)的基于相似度匹配的CPDP預(yù)測(cè)方法,并使CPDP預(yù)測(cè)性能得到改進(jìn)?! ◎?yàn)證本文方法的CPDP預(yù)測(cè)模型在樸素貝葉斯分類器下效果最好?! ?跨項(xiàng)目缺陷預(yù)測(cè) CPDP形象表示為利用其它項(xiàng)目組成的缺陷數(shù)據(jù)集S={P1,P2,…,Ps}對(duì)目標(biāo)項(xiàng)目Pt作缺陷預(yù)測(cè)。假設(shè)一個(gè)項(xiàng)目P由n實(shí)例組成,即P={I1,I2,…,Ii,…,In},實(shí)例Ii表示為Ii={fi1,fi2,…,fij,…,fim},fij為實(shí)例Ii在第j個(gè)度量指標(biāo)上的值,m為
7、用于度量實(shí)例的指標(biāo)個(gè)數(shù)。一個(gè)項(xiàng)目數(shù)據(jù)集P中度量指標(biāo)Fi對(duì)應(yīng)的向量可表示為Fi={f1i,f2i,…,fji,…,fni},fji為第j個(gè)實(shí)例在該度量指標(biāo)上的值,各實(shí)例指標(biāo)值的分布特性可表示為Ci={SCi1,SCi2,…,SCik},SC為對(duì)應(yīng)的度量指標(biāo)值的分布特性。因此,項(xiàng)目P可根據(jù)度量指標(biāo)量化為V={C1,C2,…,Ck,…,Cm}。這樣,項(xiàng)目A和B之間的相似性可表示為: Simmetric=cos=VA?VB
8、VA
9、
10、VB
11、為了充分發(fā)揮