句子關(guān)鍵詞提取算法設(shè)計

ID:5298028

大?。?06.50 KB

頁數(shù):4頁

時間:2017-12-07

句子關(guān)鍵詞提取算法設(shè)計_第1頁
句子關(guān)鍵詞提取算法設(shè)計_第2頁
句子關(guān)鍵詞提取算法設(shè)計_第3頁
句子關(guān)鍵詞提取算法設(shè)計_第4頁
資源描述:

《句子關(guān)鍵詞提取算法設(shè)計》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、_________________________________________________________________________www.paper.edu.cn句子關(guān)鍵詞提取算法設(shè)計1李明浩(廈門大學計算機科學系,福建廈門361005)摘要:本文從網(wǎng)絡(luò)答疑系統(tǒng)的設(shè)計與開發(fā)的需要出發(fā),討論了句子關(guān)鍵詞提取的總體思路,即“先分解再綜合,遵循組句規(guī)律,抽取特征,降低難度,提高速度”,并具體提出一個算法,從理論上,該算法能完成一般語句的關(guān)鍵詞提取,而且通過引入獨立字、固定詞的概念,加快了關(guān)鍵詞提取的速度。同時也指出了算法存在的不足。關(guān)鍵詞:句子關(guān)鍵詞提

2、取1引言網(wǎng)絡(luò)答疑系統(tǒng)的設(shè)計與開發(fā)是目前的一個研究熱點,其中涉及到的關(guān)鍵技術(shù)是如何從用戶輸入的問題中提取主要意思,并且由計算機根據(jù)相關(guān)度從答案數(shù)據(jù)庫中查詢并給出答案。要從用戶輸入的問題中提取主要意思,即需要解決如何從一句話中提取關(guān)鍵詞然后逐級匹配的問題。本文就如何從一句話中提取關(guān)鍵詞提出一個不成熟的算法。2平臺(知識庫)要進行關(guān)鍵詞的提取,首先要有完整的語義分析庫。萬幸的是,董振東先生在《知網(wǎng)》上給出了一個完整的庫,包括了詞性、詞義等等,可供給我們研究人員免費使用??v觀該庫,分類科學、分析精到,經(jīng)我國漢語言研究權(quán)威機構(gòu)認證通過,非常適用。我們將其選作關(guān)鍵詞提取的支

3、持庫,即知識平臺。3關(guān)鍵詞提取的總體思路總體思路是“先分解再綜合,遵循組句規(guī)律,抽取特征,降低難度,提高速度”。首先,要對句子進行劃分,判斷該句是簡單句還是復合句(具體內(nèi)涵與漢語研究略有不同,見算法部分),將復合句劃分為簡單句,然后以簡單句為單位進行提取。復合句關(guān)鍵詞在此基礎(chǔ)上進行連接。這樣將極大地簡化關(guān)鍵詞提取的復雜度。簡單句提取關(guān)鍵詞時先進行字詞判定,這時應(yīng)用許多漢語字詞組成特點以加快判斷速度。這是核心部分。在其中,我引入獨立字、固定詞概念。所謂獨立字,就是指一般情況下不能組詞的字。固定詞即該詞最后一個漢字不可能與其后面的漢字組詞的詞。這兩個概念僅1李明浩(

4、1975-),男,福建連城人,講師,龍巖市成人中專學校教務(wù)處主任,廈門大學在職研究生,主要研究領(lǐng)域為信息安全保障。1中國科技論文在線_________________________________________________________________________www.paper.edu.cn為本算法所用,不作一般研究用。判定字詞后,根據(jù)詞性結(jié)合常見的獨立字作用(如“是”作判斷謂語、“的”做定語連接部分)提取出主謂賓,即所謂的關(guān)鍵詞。4關(guān)鍵詞提取的算法描述關(guān)鍵詞的提取,最終落實到句子成份的劃分,即劃分出主謂賓并提取出來。下面是具體算法。4.1利用

5、標點符號判斷一句話主要的標點符號有句號、問號、感嘆號等,只要出現(xiàn)它們,就表明是一句話。引號內(nèi)的部分是不是一句話的判斷:若引號前有冒號,則肯定是一句話。若引號前沒有冒號,則將其看作是句子的相對獨立部分。省略號是不是一句話的結(jié)束的判斷:若省略號后面立即回車,則一定是一句話的結(jié)束;若后面緊跟漢字,則先將其當作不是一句話的結(jié)束,在后面利用標點符號判斷一句話中的相對獨立部分時再進行判定。接下來的判斷均以此時劃定的一句話為單位進行。4.2劃分簡單句和復合句根據(jù)句子中標點符號的個數(shù)來判斷,一句話不止一個標點符號,則判斷為復合句。注意,此處的簡單句復合句與漢語上的定義略有不同,

6、僅是為方便算法設(shè)計而定。4.3簡單句關(guān)鍵詞的提取首先是如何將詞語劃分出來。漢語的所有詞匯直接連在一起,而沒有空格隔開,且詞語的字數(shù)不確定,這些都增加了劃分詞語的難度。針對這情況,我設(shè)計算法如下:4.3.1常見的獨立字和固定詞取出最常見的獨立字有“是”、“為”、“不”、“和”、“與”、“或”、“了”、“的”、“地”、“得”、“有”、“中”、“將”等。取詞時先判斷它前后的漢字是否與它連成一個詞。以“是”字為例,一句話為“這是不能否認的”,先判斷“這”與“是”不是一個詞,再判斷“是不”,它可以作為一個詞,因為“不”字后面還有漢字,這時又要先判斷“不能”是不是一個詞,是

7、一個詞,則“是不”就不是一個詞。又如“是否可以判斷呢”這句話中,“是否”可以是一個詞,應(yīng)判斷“否可”是不是一個詞,在此處顯然不是,這時就可以判定“是否”在這句話中是一個詞。再如“通信雙方是互相信任的”這句話,“是”字與其前其后的漢字都不能組成詞,那么很容易判斷它是一個獨立字,先取出。最常見的固定詞有“我們”、“你們”、“他們”、“那么”、“最終”等,但“介紹”不是,如“向您推介紹興的黃酒”,此處的“介紹”就不是。當然,根據(jù)其出現(xiàn)的概率,可以將“介紹”當作一個準固定詞語。然后,按獨立字判斷的方法進行判斷。這將會有效地加速關(guān)鍵詞2中國科技論文在線__________

8、____________

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。
关闭