基于web的新聞信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

基于web的新聞信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

ID:34850210

大?。?.51 MB

頁數(shù):52頁

時(shí)間:2019-03-12

基于web的新聞信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_第1頁
基于web的新聞信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_第2頁
基于web的新聞信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_第3頁
基于web的新聞信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_第4頁
基于web的新聞信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_第5頁
資源描述:

《基于web的新聞信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、淪義題U:坫t二Web的新n日價(jià)息抽取系統(tǒng)設(shè)計(jì)。j實(shí)現(xiàn)第一章緒論WorldWideWeb(縮寫為:WWW)作為?個(gè)全球化信息空I’llJ,蘊(yùn)含管人量的新聞信息和知識(shí);但對(duì)于用戶來說有用的新聞內(nèi)容可能只是其中極小的一部分,然而對(duì)于這一部分卻難于獲得。一般用戶只能通過一些新聞門戶網(wǎng)站或基于關(guān)鍵字的搜索引擎方式來獲得所需信息,但是搜索所得的龐大結(jié)果對(duì)于用戶來說己經(jīng)到了無法使用的地步,從而導(dǎo)致WWW上新聞信息的閑置與浪費(fèi)。為了解決對(duì)Web新聞信息資源的需求問題各大搜索引擎均推出了專門針對(duì)新聞信息的搜索服務(wù)。但是,僅僅依靠傳統(tǒng)的瀏覽器和搜索引擎很難幫助人們找到符合自己所需

2、要的特定的新聞信息資源也很難擴(kuò)展利用。基于Web的信息挖掘和信息抽取技術(shù)的提出,有效地解決了準(zhǔn)確獲取Web頁面中的新聞信息資源的難題。1.1Web挖掘概述1.1.1Web挖掘的定義Web挖掘是-I"1交叉性學(xué)科,涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)語言學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、信息學(xué)等多個(gè)領(lǐng)域。Web挖掘?是指從大量非結(jié)構(gòu)化、異構(gòu)的Web信息資源中發(fā)現(xiàn)有效的、新穎的、潛在可用的及最終可理解的知識(shí)(包括概念(Concept)、模式(Patterns)、規(guī)貝.1](Rules)、規(guī)律(Regularities)、約束(Constraints)及可視化

3、(Visualizations))等形式的非平凡過程。即就是使用數(shù)據(jù)挖掘技術(shù)在Web文檔內(nèi)容、同志信息或其他描述數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的知識(shí)的過程。如果把大量的Web文檔結(jié)構(gòu)和使用的集合c作為輸入,發(fā)現(xiàn)的隱含模式P作為輸出,那么Web數(shù)據(jù)挖掘的過程就是從輸入到輸出的一個(gè)映射【2】:,:C—p1.1.2W曲挖掘的分類目前,根據(jù)數(shù)據(jù)源形式的不同,可以將Web數(shù)據(jù)挖掘分為三類:Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘WSM(W.ebStructureMining)、Web使用挖掘(WebUsageMining)13l。如下圖1.1所示:論文題

4、I:1:肚J二Web的新n日竹息抽取系統(tǒng)垃計(jì)’j實(shí)J見圖1-1Web數(shù)據(jù)挖擄f{的分類圖WCM是對(duì)半結(jié)構(gòu)化的Web頁面,包括Web頁面上的文本、圖片、聲音、視頻、元數(shù)據(jù)等進(jìn)行挖掘,從Web數(shù)據(jù)中發(fā)現(xiàn)信息。由于Web文檔絕大部分內(nèi)容是以文本形式存在,所以Web內(nèi)容挖掘t要針對(duì)Web文檔的文本部分。文本挖掘主要包括直接對(duì)Web頁面文檔內(nèi)容以及搜索引擎的查詢結(jié)果進(jìn)行文本的總結(jié)、分類、聚類、關(guān)聯(lián)分析等。除此之外,還有針對(duì)Web上圖片、聲音、視頻等多媒體數(shù)據(jù)的挖掘。WCM有兩種策略:直接挖掘文檔的內(nèi)容和在其他工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采用第一種策略的有針對(duì)Web的查詢語言

5、WebLOG,利用啟發(fā)式規(guī)則來尋找個(gè)人主頁信息的AHOY等。采用第二種策略的方法主要是對(duì)搜索引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理,得到更為精確和有用的信息。屬于該類的有WebSQL,及對(duì)搜索引擎的返回結(jié)果進(jìn)行聚類的技術(shù)等。根據(jù)挖掘處理的數(shù)據(jù)可以將Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘兩個(gè)部分。WSM是對(duì)W曲頁面之間的結(jié)構(gòu)進(jìn)行挖掘,主要針對(duì)研Web頁面的超鏈接結(jié)構(gòu)進(jìn)行分析。根據(jù)超鏈接的拓?fù)浣Y(jié)構(gòu),Web結(jié)構(gòu)挖掘可以對(duì)頁面進(jìn)行分類,取得不同網(wǎng)站網(wǎng)頁之問的關(guān)系;也能發(fā)現(xiàn)Web文檔自身的結(jié)構(gòu)。這種方法能夠通過網(wǎng)頁之問的比較,更有助于用戶瀏覽。WUM是通過挖掘相關(guān)的Web同志記錄

6、,束發(fā)現(xiàn)用戶訪問Web頁面的模式和相關(guān)信息。WWW中的每個(gè)服務(wù)器都保留了訪問同.志(WebAccessLog),記錄了關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進(jìn)站點(diǎn)結(jié)構(gòu),為用戶提供個(gè)性化服務(wù)。2論義題I

7、:肚fWeb的gil',ltf.‘i息{IIIll)c系統(tǒng)i筻汁。,實(shí)J硯1.2Web信息抽取數(shù)據(jù)挖掘是從大量的、有噪盧的、模糊的、隨機(jī)的數(shù)執(zhí):集中識(shí)別出有效的、新穎的、潛在有用的、以及最終可理解的信息的一個(gè)過程。數(shù)據(jù)挖掘的前提是大量相關(guān)數(shù)據(jù)的采集抽取,從這些大量的相關(guān)抽取結(jié)果信息中研究分析出事件發(fā)展的各種念勢(shì)。大量的數(shù)據(jù)和相關(guān)信息足

8、進(jìn)行研究分析的璉礎(chǔ),fⅡ這螳信息和數(shù)據(jù)從何處而來?信息抽取提供了一條進(jìn)行大規(guī)模數(shù)據(jù)及信息挖掘的思路。通過信息抽取,能夠從自由文本中抽取出數(shù)值數(shù)據(jù)和結(jié)構(gòu)化的信息,進(jìn)而實(shí)現(xiàn)大胤模的數(shù)據(jù)挖掘和信息分析。1.2.1W曲信息抽取的定義信息抽取的目標(biāo)【4】是從文本中抽取出特定的事實(shí)信,皂,(FactualInformation)。比如,從書店的貨品欄記錄中抽取出書名,類別,價(jià)格,作者,出版商等等。通常,被抽取出的信息以結(jié)構(gòu)化形式描述,可以直接存入數(shù)據(jù)庫,供用戶查詢以及進(jìn)一步進(jìn)行集成分析。Web信息抽取【4J,就是將Web作為信息源的一類信息抽取。它的主要任務(wù)就是如何將分散在

9、Internet上的半結(jié)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。