文本分類入門(十)特征選擇算法之開方檢驗(yàn)

文本分類入門(十)特征選擇算法之開方檢驗(yàn)

ID:15098498

大小:72.00 KB

頁(yè)數(shù):8頁(yè)

時(shí)間:2018-08-01

文本分類入門(十)特征選擇算法之開方檢驗(yàn)_第1頁(yè)
文本分類入門(十)特征選擇算法之開方檢驗(yàn)_第2頁(yè)
文本分類入門(十)特征選擇算法之開方檢驗(yàn)_第3頁(yè)
文本分類入門(十)特征選擇算法之開方檢驗(yàn)_第4頁(yè)
文本分類入門(十)特征選擇算法之開方檢驗(yàn)_第5頁(yè)
資源描述:

《文本分類入門(十)特征選擇算法之開方檢驗(yàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)

1、前文提到過(guò),除了分類算法以外,為分類文本作處理的特征提取算法也對(duì)最終效果有巨大影響,而特征提取算法又分為特征選擇和特征抽取兩大類,其中特征選擇算法有互信息,文檔頻率,信息增益,開方檢驗(yàn)等等十?dāng)?shù)種,這次先介紹特征選擇算法中效果比較好的開方檢驗(yàn)方法。大家應(yīng)該還記得,開方檢驗(yàn)其實(shí)是數(shù)理統(tǒng)計(jì)中一種常用的檢驗(yàn)兩個(gè)變量獨(dú)立性的方法。(什么?你是文史類專業(yè)的學(xué)生,沒有學(xué)過(guò)數(shù)理統(tǒng)計(jì)?那你做什么文本分類?在這搗什么亂?)開方檢驗(yàn)最基本的思想就是通過(guò)觀察實(shí)際值與理論值的偏差來(lái)確定理論的正確與否。具體做的時(shí)候常常先假設(shè)兩個(gè)變量確實(shí)是獨(dú)立的(行話就叫做“原假設(shè)”),然后觀察實(shí)際值(也可以叫做

2、觀察值)與理論值(這個(gè)理論值是指“如果兩者確實(shí)獨(dú)立”的情況下應(yīng)該有的值)的偏差程度,如果偏差足夠小,我們就認(rèn)為誤差是很自然的樣本誤差,是測(cè)量手段不夠精確導(dǎo)致或者偶然發(fā)生的,兩者確確實(shí)實(shí)是獨(dú)立的,此時(shí)就接受原假設(shè);如果偏差大到一定程度,使得這樣的誤差不太可能是偶然產(chǎn)生或者測(cè)量不精確所致,我們就認(rèn)為兩者實(shí)際上是相關(guān)的,即否定原假設(shè),而接受備擇假設(shè)。那么用什么來(lái)衡量偏差程度呢?假設(shè)理論值為E(這也是數(shù)學(xué)期望的符號(hào)哦),實(shí)際值為x,如果僅僅使用所有樣本的觀察值與理論值的差值x-E之和來(lái)衡量,單個(gè)的觀察值還好說(shuō),當(dāng)有多個(gè)觀察值x1,x2,x3的時(shí)候,很可能x1-E,x2-E,x

3、3-E的值有正有負(fù),因而互相抵消,使得最終的結(jié)果看上好像偏差為0,但實(shí)際上每個(gè)都有偏差,而且都還不??!此時(shí)很直接的想法便是使用方差代替均值,這樣就解決了正負(fù)抵消的問(wèn)題,即使用這時(shí)又引來(lái)了新的問(wèn)題,對(duì)于500的均值來(lái)說(shuō),相差5其實(shí)是很小的(相差1%),而對(duì)20的均值來(lái)說(shuō),5相當(dāng)于25%的差異,這是使用方差也無(wú)法體現(xiàn)的。因此應(yīng)該考慮改進(jìn)上面的式子,讓均值的大小不影響我們對(duì)差異程度的判斷式(1)上面這個(gè)式子已經(jīng)相當(dāng)好了。實(shí)際上這個(gè)式子就是開方檢驗(yàn)使用的差值衡量公式。當(dāng)提供了數(shù)個(gè)樣本的觀察值x1,x2,……xi,……xn之后,代入到式(1)中就可以求得開方值,用這個(gè)值與事先設(shè)

4、定的閾值比較,如果大于閾值(即偏差很大),就認(rèn)為原假設(shè)不成立,反之則認(rèn)為原假設(shè)成立。在文本分類問(wèn)題的特征選擇階段,我們主要關(guān)心一個(gè)詞t(一個(gè)隨機(jī)變量)與一個(gè)類別c(另一個(gè)隨機(jī)變量)之間是否相互獨(dú)立?如果獨(dú)立,就可以說(shuō)詞t對(duì)類別c完全沒有表征作用,即我們根本無(wú)法根據(jù)t出現(xiàn)與否來(lái)判斷一篇文檔是否屬于c這個(gè)分類。但與最普通的開方檢驗(yàn)不同,我們不需要設(shè)定閾值,因?yàn)楹茈y說(shuō)詞t和類別c關(guān)聯(lián)到什么程度才算是有表征作用,我們只想借用這個(gè)方法來(lái)選出一些最最相關(guān)的即可。此時(shí)我們?nèi)匀恍枰靼讓?duì)特征選擇來(lái)說(shuō)原假設(shè)是什么,因?yàn)橛?jì)算出的開方值越大,說(shuō)明對(duì)原假設(shè)的偏離越大,我們?cè)絻A向于認(rèn)為原假設(shè)的

5、反面情況是正確的。我們能不能把原假設(shè)定為“詞t與類別c相關(guān)“?原則上說(shuō)當(dāng)然可以,這也是一個(gè)健全的民主主義社會(huì)賦予每個(gè)公民的權(quán)利(笑),但此時(shí)你會(huì)發(fā)現(xiàn)根本不知道此時(shí)的理論值該是多少!你會(huì)把自己繞進(jìn)死胡同。所以我們一般都使用”詞t與類別c不相關(guān)“來(lái)做原假設(shè)。選擇的過(guò)程也變成了為每個(gè)詞計(jì)算它與類別c的開方值,從大到小排個(gè)序(此時(shí)開方值越大越相關(guān)),取前k個(gè)就可以(k值可以根據(jù)自己的需要選,這也是一個(gè)健全的民主主義社會(huì)賦予每個(gè)公民的權(quán)利)。好,原理有了,該來(lái)個(gè)例子說(shuō)說(shuō)到底怎么算了。比如說(shuō)現(xiàn)在有N篇文檔,其中有M篇是關(guān)于體育的,我們想考察一個(gè)詞“籃球”與類別“體育”之間的相關(guān)性

6、(任誰(shuí)都看得出來(lái)兩者很相關(guān),但很遺憾,我們是智慧生物,計(jì)算機(jī)不是,它一點(diǎn)也看不出來(lái),想讓它認(rèn)識(shí)到這一點(diǎn),只能讓它算算看)。我們有四個(gè)觀察值可以使用:1.包含“籃球”且屬于“體育”類別的文檔數(shù),命名為A2.包含“籃球”但不屬于“體育”類別的文檔數(shù),命名為B3.不包含“籃球”但卻屬于“體育”類別的文檔數(shù),命名為C4.既不包含“籃球”也不屬于“體育”類別的文檔數(shù),命名為D用下面的表格更清晰:特征選擇1.屬于“體育”2.不屬于“體育”總計(jì)1.包含“籃球”ABA+B2.不包含“籃球”CDC+D總數(shù)A+CB+DN如果有些特點(diǎn)你沒看出來(lái),那我說(shuō)一說(shuō),首先,A+B+C+D=N(這,這

7、不廢話嘛)。其次,A+C的意思其實(shí)就是說(shuō)“屬于體育類的文章數(shù)量”,因此,它就等于M,同時(shí),B+D就等于N-M。好,那么理論值是什么呢?以包含“籃球”且屬于“體育”類別的文檔數(shù)為例。如果原假設(shè)是成立的,即“籃球”和體育類文章沒什么關(guān)聯(lián)性,那么在所有的文章中,“籃球”這個(gè)詞都應(yīng)該是等概率出現(xiàn),而不管文章是不是體育類的。這個(gè)概率具體是多少,我們并不知道,但他應(yīng)該體現(xiàn)在觀察結(jié)果中(就好比拋硬幣的概率是二分之一,可以通過(guò)觀察多次拋的結(jié)果來(lái)大致確定),因此我們可以說(shuō)這個(gè)概率接近(因?yàn)锳+B是包含“籃球”的文章數(shù),除以總文檔數(shù)就是“籃球”出現(xiàn)的概率,當(dāng)然,這里認(rèn)為

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。