一個基于語義分析的文本過濾方法(1)

ID:30620858

大小:19.47 KB

頁數(shù):7頁

時間:2019-01-01

一個基于語義分析的文本過濾方法(1)_第1頁
一個基于語義分析的文本過濾方法(1)_第2頁
一個基于語義分析的文本過濾方法(1)_第3頁
一個基于語義分析的文本過濾方法(1)_第4頁
一個基于語義分析的文本過濾方法(1)_第5頁
資源描述:

《一個基于語義分析的文本過濾方法(1)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、從本學(xué)科出發(fā),應(yīng)著重選對國民經(jīng)濟(jì)具有一定實(shí)用價值和理論意義的課題。課題具有先進(jìn)性,便于研究生提出新見解,特別是博士生必須有創(chuàng)新性的成果一個基于語義分析的文本過濾方法(1)摘要基于統(tǒng)計的文本過濾方法比較適用于主題過濾,對具有傾向性的文本進(jìn)行過濾的效果不理想。本文提出了一個傾向性文本過濾的方法,在采用語義模式分析的同時,引入了特征區(qū)域權(quán)重因子,實(shí)驗(yàn)表明其查準(zhǔn)率、查全率較高。關(guān)鍵詞文本過濾;語義分析;語義模式1引言隨著信息社會的不斷發(fā)展,人們面臨的信息日益劇增,如何更準(zhǔn)確、有效地找到自己感興趣的信息,過濾掉與需求無關(guān)的“垃圾”信息,成為了一個重要的研究問題,內(nèi)容過濾技術(shù)也

2、就應(yīng)運(yùn)而生。目前,網(wǎng)上信息大多是文本形式,所以內(nèi)容過濾大多是針對文本的。所謂文本過濾指的是從大量文本中找出滿足用戶需求的文本的過程,它對于文本信息處理具有重要意義,另外,它也可以實(shí)現(xiàn)對網(wǎng)絡(luò)中不良信息的自動過濾,從而保障網(wǎng)絡(luò)的安全。課題份量和難易程度要恰當(dāng),博士生能在二年內(nèi)作出結(jié)果,碩士生能在一年內(nèi)作出結(jié)果,特別是對實(shí)驗(yàn)條件等要有恰當(dāng)?shù)墓烙?。從本學(xué)科出發(fā),應(yīng)著重選對國民經(jīng)濟(jì)具有一定實(shí)用價值和理論意義的課題。課題具有先進(jìn)性,便于研究生提出新見解,特別是博士生必須有創(chuàng)新性的成果網(wǎng)上的不良信息包括暴力、色情、邪教等主題,主題性信息過濾大多采用基于統(tǒng)計的過濾技術(shù),利用關(guān)鍵詞匹

3、配技術(shù)來實(shí)現(xiàn),這種方法只能過濾出與主題相關(guān)的文本,不能區(qū)分出文章的立場和態(tài)度。而有些文章雖然也包含相關(guān)的主題,但卻可能對主題持有不同的立場,例如包含“法輪功”主題的文章,有些是站在批判法輪功的立場上來表達(dá)觀點(diǎn)的,有些卻是站在支持法輪功的立場上的,因此對這類信息進(jìn)行分析時,不僅要分析其主題內(nèi)容,還要分析它的立場和態(tài)度,即它的傾向性,采用基于統(tǒng)計的主題過濾技術(shù)是不能較好地解決這種過濾要求。要解決這個問題,除了要進(jìn)行主題分析外,還要對文本進(jìn)行語義分析,理解文本表達(dá)的主題思想,彌補(bǔ)統(tǒng)計方法缺乏語義信息的弊端,從而更精確地滿足用戶的信息需求。本文提出了一個基于語義分析的信息過

4、濾方法,除了對文本進(jìn)行語義分析外,還充分考慮了文章主題詞所在特征區(qū)域的重要性,在計算文本的傾向性指標(biāo)時增加了特征區(qū)域權(quán)重因子,能更準(zhǔn)確地過濾出傾向性文本。2傾向性文本語義模式分析文本語義模式目前的自然語言理解技術(shù)還不能全面而精確的解析和表達(dá)文本的主題思想,而傾向性文本過濾通常用于特定領(lǐng)域,語義分析只需基于特定領(lǐng)域知識,無需對文本進(jìn)行全面的語義分析,只要分析出不同的傾向性。因此,對文本進(jìn)行語義分析所產(chǎn)生的語義單元不必過細(xì),可以簡化。語言學(xué)家于1986年提出了“格語法”[1]的概念,對于文本分析采用簡化的局部分析的方法,語義分析采用格語法。格語法以動詞為中心研究語句的深

5、度結(jié)構(gòu),認(rèn)為句子的其他成分都是對動詞的修飾,每一種修飾稱為一個“格”。一個句子以動詞為中心詞,動作的施加者稱為施事格,動作的承受者稱為受事格,動作的地點(diǎn)稱為地點(diǎn)格等,而格關(guān)系則是謂詞和格之間的語義關(guān)系。對于傾向性分析,最重要的語義關(guān)系是施事格和受事格,其他的格對于傾向性影響較小,當(dāng)文本中出現(xiàn)了與句子中各個角色關(guān)系相對應(yīng)的格時,才能判斷為相關(guān)。課題份量和難易程度要恰當(dāng),博士生能在二年內(nèi)作出結(jié)果,碩士生能在一年內(nèi)作出結(jié)果,特別是對實(shí)驗(yàn)條件等要有恰當(dāng)?shù)墓烙?。從本學(xué)科出發(fā),應(yīng)著重選對國民經(jīng)濟(jì)具有一定實(shí)用價值和理論意義的課題。課題具有先進(jìn)性,便于研究生提出新見解,特別是博士生

6、必須有創(chuàng)新性的成果為了表示語句中的語義關(guān)系,本文采用了簡化的語義模式來表示文本的基本語義框架。在進(jìn)行語法和語義分析時,根據(jù)動作的施加和接受,可以將文本分為4種語義模式:(a)主、謂、賓模式(b)主、謂模式(c)動、賓模式(d)關(guān)鍵對象模式在許多文本中,有些主體、行為或個體本身就表現(xiàn)出對問題的傾向,如個體“非法邪教”、行為“欺騙”本身就已經(jīng)反映了強(qiáng)烈的傾向性,模式d中把具有這種特性的主體、行為或個體統(tǒng)稱為關(guān)鍵對象。過濾模板的表示對于文本的傾向性過濾要求的表達(dá),同樣可以忽略句子中對傾向性影響較小的時間、地點(diǎn)等因素,因此我們采用如下簡化的過濾模板來表達(dá)文本的語義關(guān)系。表1

7、過濾模板的表示表1中,Relevancy表示相關(guān)度,它代表不同的語義模式對作者觀點(diǎn)的傾向性的權(quán)重,用正值表示正相關(guān),負(fù)值表示負(fù)相關(guān),Relevancy的絕對值越大,則表示傾向性越強(qiáng)。采用這種設(shè)置可以正確的判斷在正面信息中引用負(fù)面信息的情況,例如,在過濾宣揚(yáng)法輪功的反動信息的過濾模板中,批判法輪功的語義模式就具有負(fù)的相關(guān)度,這樣可以避免在批判法輪功的文本中引用了法輪功言論而導(dǎo)致傾向性誤判的情況。3傾向性文本過濾方法過濾步驟對文本的過濾過程分為3個步驟:對文本進(jìn)行語法和語義分析,切分出每個句子中的語義模式。根據(jù)文本所在的特征區(qū)域和對應(yīng)模板的相關(guān)度,計算該語義模式的加

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。
关闭