基于web的新聞信息抽取系統(tǒng)設(shè)計與實現(xiàn)

基于web的新聞信息抽取系統(tǒng)設(shè)計與實現(xiàn)

ID:34850210

大小:4.51 MB

頁數(shù):52頁

時間:2019-03-12

基于web的新聞信息抽取系統(tǒng)設(shè)計與實現(xiàn)_第1頁
基于web的新聞信息抽取系統(tǒng)設(shè)計與實現(xiàn)_第2頁
基于web的新聞信息抽取系統(tǒng)設(shè)計與實現(xiàn)_第3頁
基于web的新聞信息抽取系統(tǒng)設(shè)計與實現(xiàn)_第4頁
基于web的新聞信息抽取系統(tǒng)設(shè)計與實現(xiàn)_第5頁
資源描述:

《基于web的新聞信息抽取系統(tǒng)設(shè)計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、淪義題U:坫t二Web的新n日價息抽取系統(tǒng)設(shè)計。j實現(xiàn)第一章緒論WorldWideWeb(縮寫為:WWW)作為?個全球化信息空I’llJ,蘊含管人量的新聞信息和知識;但對于用戶來說有用的新聞內(nèi)容可能只是其中極小的一部分,然而對于這一部分卻難于獲得。一般用戶只能通過一些新聞門戶網(wǎng)站或基于關(guān)鍵字的搜索引擎方式來獲得所需信息,但是搜索所得的龐大結(jié)果對于用戶來說己經(jīng)到了無法使用的地步,從而導(dǎo)致WWW上新聞信息的閑置與浪費。為了解決對Web新聞信息資源的需求問題各大搜索引擎均推出了專門針對新聞信息的搜索服務(wù)。但是,僅僅依靠傳統(tǒng)的瀏覽器和搜索引擎很難幫助人們找到符合自己所需

2、要的特定的新聞信息資源也很難擴展利用?;赪eb的信息挖掘和信息抽取技術(shù)的提出,有效地解決了準(zhǔn)確獲取Web頁面中的新聞信息資源的難題。1.1Web挖掘概述1.1.1Web挖掘的定義Web挖掘是-I"1交叉性學(xué)科,涉及數(shù)據(jù)挖掘、機器學(xué)習(xí)、模式識別、人工智能、統(tǒng)計學(xué)、計算機語言學(xué)、計算機網(wǎng)絡(luò)技術(shù)、信息學(xué)等多個領(lǐng)域。Web挖掘?是指從大量非結(jié)構(gòu)化、異構(gòu)的Web信息資源中發(fā)現(xiàn)有效的、新穎的、潛在可用的及最終可理解的知識(包括概念(Concept)、模式(Patterns)、規(guī)貝.1](Rules)、規(guī)律(Regularities)、約束(Constraints)及可視化

3、(Visualizations))等形式的非平凡過程。即就是使用數(shù)據(jù)挖掘技術(shù)在Web文檔內(nèi)容、同志信息或其他描述數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的知識的過程。如果把大量的Web文檔結(jié)構(gòu)和使用的集合c作為輸入,發(fā)現(xiàn)的隱含模式P作為輸出,那么Web數(shù)據(jù)挖掘的過程就是從輸入到輸出的一個映射【2】:,:C—p1.1.2W曲挖掘的分類目前,根據(jù)數(shù)據(jù)源形式的不同,可以將Web數(shù)據(jù)挖掘分為三類:Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘WSM(W.ebStructureMining)、Web使用挖掘(WebUsageMining)13l。如下圖1.1所示:論文題

4、I:1:肚J二Web的新n日竹息抽取系統(tǒng)垃計’j實J見圖1-1Web數(shù)據(jù)挖擄f{的分類圖WCM是對半結(jié)構(gòu)化的Web頁面,包括Web頁面上的文本、圖片、聲音、視頻、元數(shù)據(jù)等進行挖掘,從Web數(shù)據(jù)中發(fā)現(xiàn)信息。由于Web文檔絕大部分內(nèi)容是以文本形式存在,所以Web內(nèi)容挖掘t要針對Web文檔的文本部分。文本挖掘主要包括直接對Web頁面文檔內(nèi)容以及搜索引擎的查詢結(jié)果進行文本的總結(jié)、分類、聚類、關(guān)聯(lián)分析等。除此之外,還有針對Web上圖片、聲音、視頻等多媒體數(shù)據(jù)的挖掘。WCM有兩種策略:直接挖掘文檔的內(nèi)容和在其他工具搜索的基礎(chǔ)上進行改進。采用第一種策略的有針對Web的查詢語言

5、WebLOG,利用啟發(fā)式規(guī)則來尋找個人主頁信息的AHOY等。采用第二種策略的方法主要是對搜索引擎的查詢結(jié)果進行進一步的處理,得到更為精確和有用的信息。屬于該類的有WebSQL,及對搜索引擎的返回結(jié)果進行聚類的技術(shù)等。根據(jù)挖掘處理的數(shù)據(jù)可以將Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘兩個部分。WSM是對W曲頁面之間的結(jié)構(gòu)進行挖掘,主要針對研Web頁面的超鏈接結(jié)構(gòu)進行分析。根據(jù)超鏈接的拓?fù)浣Y(jié)構(gòu),Web結(jié)構(gòu)挖掘可以對頁面進行分類,取得不同網(wǎng)站網(wǎng)頁之問的關(guān)系;也能發(fā)現(xiàn)Web文檔自身的結(jié)構(gòu)。這種方法能夠通過網(wǎng)頁之問的比較,更有助于用戶瀏覽。WUM是通過挖掘相關(guān)的Web同志記錄

6、,束發(fā)現(xiàn)用戶訪問Web頁面的模式和相關(guān)信息。WWW中的每個服務(wù)器都保留了訪問同.志(WebAccessLog),記錄了關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進站點結(jié)構(gòu),為用戶提供個性化服務(wù)。2論義題I

7、:肚fWeb的gil',ltf.‘i息{IIIll)c系統(tǒng)i筻汁。,實J硯1.2Web信息抽取數(shù)據(jù)挖掘是從大量的、有噪盧的、模糊的、隨機的數(shù)執(zhí):集中識別出有效的、新穎的、潛在有用的、以及最終可理解的信息的一個過程。數(shù)據(jù)挖掘的前提是大量相關(guān)數(shù)據(jù)的采集抽取,從這些大量的相關(guān)抽取結(jié)果信息中研究分析出事件發(fā)展的各種念勢。大量的數(shù)據(jù)和相關(guān)信息足

8、進行研究分析的璉礎(chǔ),fⅡ這螳信息和數(shù)據(jù)從何處而來?信息抽取提供了一條進行大規(guī)模數(shù)據(jù)及信息挖掘的思路。通過信息抽取,能夠從自由文本中抽取出數(shù)值數(shù)據(jù)和結(jié)構(gòu)化的信息,進而實現(xiàn)大胤模的數(shù)據(jù)挖掘和信息分析。1.2.1W曲信息抽取的定義信息抽取的目標(biāo)【4】是從文本中抽取出特定的事實信,皂,(FactualInformation)。比如,從書店的貨品欄記錄中抽取出書名,類別,價格,作者,出版商等等。通常,被抽取出的信息以結(jié)構(gòu)化形式描述,可以直接存入數(shù)據(jù)庫,供用戶查詢以及進一步進行集成分析。Web信息抽取【4J,就是將Web作為信息源的一類信息抽取。它的主要任務(wù)就是如何將分散在

9、Internet上的半結(jié)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。