基于稀疏特征中文微博短文本聚類方法探究

基于稀疏特征中文微博短文本聚類方法探究

ID:6074960

大小:30.50 KB

頁(yè)數(shù):8頁(yè)

時(shí)間:2018-01-02

基于稀疏特征中文微博短文本聚類方法探究_第1頁(yè)
基于稀疏特征中文微博短文本聚類方法探究_第2頁(yè)
基于稀疏特征中文微博短文本聚類方法探究_第3頁(yè)
基于稀疏特征中文微博短文本聚類方法探究_第4頁(yè)
基于稀疏特征中文微博短文本聚類方法探究_第5頁(yè)
資源描述:

《基于稀疏特征中文微博短文本聚類方法探究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、基于稀疏特征中文微博短文本聚類方法探究  摘要:微博文本聚類是依據(jù)微博主題不同將描述同一類主題的微博文本匯聚到一起的過(guò)程。由于微博文本非常短,在使用常規(guī)的機(jī)器學(xué)習(xí)方法對(duì)微博短文本進(jìn)行聚類時(shí),常會(huì)出現(xiàn)嚴(yán)重的數(shù)據(jù)稀疏問題,繼而對(duì)聚類性能產(chǎn)生影響。分析了中文微博文本的數(shù)據(jù)稀疏特征,并基于這一特征分析比較了幾種中文微博文本表示及聚類方法,為中文微博文本聚類分析的難點(diǎn)問題提供了一定的解決途徑。關(guān)鍵詞:微博;短文本;聚類;LDA;文本表示中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2014)001013302基金項(xiàng)目基金項(xiàng)目:安慶職業(yè)技術(shù)學(xué)院2013年院級(jí)自然科學(xué)研

2、究項(xiàng)目(2013ZRKX004)作者簡(jiǎn)介作者簡(jiǎn)介:熊祖濤(1978-),男,碩士,安慶職業(yè)技術(shù)學(xué)院電子信息系講師,研究方向?yàn)檐浖夹g(shù)。0引言8微博是一種通過(guò)關(guān)注機(jī)制分享簡(jiǎn)短實(shí)時(shí)信息的廣播式社交網(wǎng)絡(luò)平臺(tái)。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2013年1月發(fā)布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2012年12月底,中國(guó)網(wǎng)民規(guī)模為5.64億,其中微博用戶規(guī)模達(dá)到3.09億,占網(wǎng)民總數(shù)的54.7%,微博已成為中國(guó)互聯(lián)網(wǎng)第二大輿情源。面對(duì)數(shù)量龐大的微博輿情數(shù)據(jù),依靠傳統(tǒng)人工統(tǒng)計(jì)分析方法已經(jīng)力不從心。因此,利用技術(shù)手段,通過(guò)建立合適的微博文本表示模型,運(yùn)用聚類分析方法,獲取輿情熱度和輿

3、情傾向信息,實(shí)現(xiàn)微博輿情的實(shí)時(shí)監(jiān)測(cè)就顯得尤為重要。1微博文本表示1.1文本表示方法文本表示是指將用來(lái)描述文本特征的信息從文本中提取出來(lái),并按照一定的規(guī)則進(jìn)行形式化處理的結(jié)果。目前的文本表示模型主要有向量空間模型(VectorSpace8Model,VSM)、N-gram語(yǔ)言模型、類短語(yǔ)串模型、概念模型、圖模型、事件模型等。向量空間模型因其表示方法簡(jiǎn)單、有效,應(yīng)用最為廣泛。向量空間模型將文檔表示為特征空間中由一組特征項(xiàng)(T1,T2,…,Tn)構(gòu)成的特征向量,特征項(xiàng)Ti通常是與文本分類有關(guān)的字、詞或短語(yǔ)。每一個(gè)特征項(xiàng)Ti表示文本的一個(gè)維度,并根據(jù)Ti在文檔中的重要程度賦予一定的權(quán)重Wi

4、。所有文本可以用特征向量(T1,W1,T2,W2,…,Tn,Wn)表示。利用向量空間模型,文本內(nèi)容被簡(jiǎn)化為特征項(xiàng)與權(quán)重的向量表示,文本的處理被簡(jiǎn)化為向量運(yùn)算,極大地降低了文本處理的難度。鑒于向量空間模型的突出優(yōu)勢(shì),為了能對(duì)中文微博文本數(shù)據(jù)進(jìn)行有效的分析和處理,我們將微博文本用這一模型表示。1.2傳統(tǒng)的特征權(quán)重計(jì)算方法在完成文本表示后,需要通過(guò)特征降維方法,如文檔頻率、信息增益、CHI統(tǒng)計(jì)量、互信息或期望交叉熵等,對(duì)文本表示所形成的初始高維特征集作降維處理,并根據(jù)一定的標(biāo)準(zhǔn)將特征集中的特征詞賦以一定的權(quán)重。特征權(quán)重的計(jì)算方法有布爾權(quán)重、絕對(duì)詞頻權(quán)重、歸一化詞頻權(quán)重、TFIDF權(quán)重等。

5、其中,TFIDF(TermFrequencyInverseDocumentFrequency)方法是目前研究和應(yīng)用最為廣泛的權(quán)值法之一。TF-IDF權(quán)重的計(jì)算可表示為公式(1):wik=TFik×log(Nnk+0.01)(1)公式(1)中,TFik表示詞條Tk在文檔di中出現(xiàn)的頻數(shù),nk表示含有詞條Tk的文檔數(shù),N表示全部訓(xùn)練文本中的文檔數(shù)。通常情況下,由于待處理文本集中文檔長(zhǎng)度不一樣,難以準(zhǔn)確比較,為了更好地表示文本特征,還要對(duì)文本特征向量作歸一化處理。此時(shí),權(quán)重計(jì)算可表示為公式(2):wik=TFik×log(nnk+0.01)∑mk=1(TFik×log(nnk+0.01)

6、)2(2)1.3微博文本特征權(quán)重計(jì)算方法8由于微博文本非常短,在使用TF-IDF方法計(jì)算特征權(quán)重時(shí),同一詞語(yǔ)在某一短文本中出現(xiàn)的次數(shù)多為1~2次。在這種情況下TF值基本在1~2左右,導(dǎo)致TF-IDF公式的取值受TF影響不大,主要由IDF值決定。而根據(jù)IDF取值規(guī)定,在整個(gè)文本集中出現(xiàn)的特征詞頻率越高,其IDF值越小,致使其TF-IDF權(quán)重越小。這與在短文本中高頻出現(xiàn)的特征詞往往與主題密切相關(guān)相悖。另外,在微博中,同一特征詞出現(xiàn)在不同短文本中的概率要遠(yuǎn)遠(yuǎn)小于長(zhǎng)文本,在使用機(jī)器學(xué)習(xí)的方法對(duì)微博短文本進(jìn)行聚類時(shí),常常會(huì)產(chǎn)生嚴(yán)重的數(shù)據(jù)稀疏問題,對(duì)聚類性能產(chǎn)生影響。針對(duì)微博文本這一特點(diǎn),文中

7、采用了基于LDA(LatentDirichletAllocation)的表示方法。LDA是一種具有文本主題表示能力的三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。LDA訓(xùn)練模型對(duì)所有待處理的文檔進(jìn)行建模,將其作為K個(gè)主題的集合。這些主題通過(guò)建模后會(huì)與文檔中的所有詞語(yǔ)存在概率分布關(guān)系。文檔到主題服從Dirichlet分布,主題到詞服從多項(xiàng)式分布,LDA生成過(guò)程的概率模型如圖1所示。圖1LDA生成過(guò)程的概率模型8其中,實(shí)心圓表示可觀察值,空心圓表示隱含變量,矩形表示重復(fù)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。