資源描述:
《基于web的新聞信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、淪義題U:坫t二Web的新n日價(jià)息抽取系統(tǒng)設(shè)計(jì)。j實(shí)現(xiàn)第一章緒論WorldWideWeb(縮寫為:WWW)作為?個(gè)全球化信息空I’llJ,蘊(yùn)含管人量的新聞信息和知識(shí);但對(duì)于用戶來說有用的新聞內(nèi)容可能只是其中極小的一部分,然而對(duì)于這一部分卻難于獲得。一般用戶只能通過一些新聞門戶網(wǎng)站或基于關(guān)鍵字的搜索引擎方式來獲得所需信息,但是搜索所得的龐大結(jié)果對(duì)于用戶來說己經(jīng)到了無法使用的地步,從而導(dǎo)致WWW上新聞信息的閑置與浪費(fèi)。為了解決對(duì)Web新聞信息資源的需求問題各大搜索引擎均推出了專門針對(duì)新聞信息的搜索服務(wù)。但是,僅僅依靠傳統(tǒng)的瀏覽器和搜索引擎很難幫助人們找到符合自己所需
2、要的特定的新聞信息資源也很難擴(kuò)展利用。基于Web的信息挖掘和信息抽取技術(shù)的提出,有效地解決了準(zhǔn)確獲取Web頁面中的新聞信息資源的難題。1.1Web挖掘概述1.1.1Web挖掘的定義Web挖掘是-I"1交叉性學(xué)科,涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)語言學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、信息學(xué)等多個(gè)領(lǐng)域。Web挖掘?是指從大量非結(jié)構(gòu)化、異構(gòu)的Web信息資源中發(fā)現(xiàn)有效的、新穎的、潛在可用的及最終可理解的知識(shí)(包括概念(Concept)、模式(Patterns)、規(guī)貝.1](Rules)、規(guī)律(Regularities)、約束(Constraints)及可視化
3、(Visualizations))等形式的非平凡過程。即就是使用數(shù)據(jù)挖掘技術(shù)在Web文檔內(nèi)容、同志信息或其他描述數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的知識(shí)的過程。如果把大量的Web文檔結(jié)構(gòu)和使用的集合c作為輸入,發(fā)現(xiàn)的隱含模式P作為輸出,那么Web數(shù)據(jù)挖掘的過程就是從輸入到輸出的一個(gè)映射【2】:,:C—p1.1.2W曲挖掘的分類目前,根據(jù)數(shù)據(jù)源形式的不同,可以將Web數(shù)據(jù)挖掘分為三類:Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘WSM(W.ebStructureMining)、Web使用挖掘(WebUsageMining)13l。如下圖1.1所示:論文題
4、I:1:肚J二Web的新n日竹息抽取系統(tǒng)垃計(jì)’j實(shí)J見圖1-1Web數(shù)據(jù)挖擄f{的分類圖WCM是對(duì)半結(jié)構(gòu)化的Web頁面,包括Web頁面上的文本、圖片、聲音、視頻、元數(shù)據(jù)等進(jìn)行挖掘,從Web數(shù)據(jù)中發(fā)現(xiàn)信息。由于Web文檔絕大部分內(nèi)容是以文本形式存在,所以Web內(nèi)容挖掘t要針對(duì)Web文檔的文本部分。文本挖掘主要包括直接對(duì)Web頁面文檔內(nèi)容以及搜索引擎的查詢結(jié)果進(jìn)行文本的總結(jié)、分類、聚類、關(guān)聯(lián)分析等。除此之外,還有針對(duì)Web上圖片、聲音、視頻等多媒體數(shù)據(jù)的挖掘。WCM有兩種策略:直接挖掘文檔的內(nèi)容和在其他工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采用第一種策略的有針對(duì)Web的查詢語言
5、WebLOG,利用啟發(fā)式規(guī)則來尋找個(gè)人主頁信息的AHOY等。采用第二種策略的方法主要是對(duì)搜索引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理,得到更為精確和有用的信息。屬于該類的有WebSQL,及對(duì)搜索引擎的返回結(jié)果進(jìn)行聚類的技術(shù)等。根據(jù)挖掘處理的數(shù)據(jù)可以將Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘兩個(gè)部分。WSM是對(duì)W曲頁面之間的結(jié)構(gòu)進(jìn)行挖掘,主要針對(duì)研Web頁面的超鏈接結(jié)構(gòu)進(jìn)行分析。根據(jù)超鏈接的拓?fù)浣Y(jié)構(gòu),Web結(jié)構(gòu)挖掘可以對(duì)頁面進(jìn)行分類,取得不同網(wǎng)站網(wǎng)頁之問的關(guān)系;也能發(fā)現(xiàn)Web文檔自身的結(jié)構(gòu)。這種方法能夠通過網(wǎng)頁之問的比較,更有助于用戶瀏覽。WUM是通過挖掘相關(guān)的Web同志記錄
6、,束發(fā)現(xiàn)用戶訪問Web頁面的模式和相關(guān)信息。WWW中的每個(gè)服務(wù)器都保留了訪問同.志(WebAccessLog),記錄了關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進(jìn)站點(diǎn)結(jié)構(gòu),為用戶提供個(gè)性化服務(wù)。2論義題I
7、:肚fWeb的gil',ltf.‘i息{IIIll)c系統(tǒng)i筻汁。,實(shí)J硯1.2Web信息抽取數(shù)據(jù)挖掘是從大量的、有噪盧的、模糊的、隨機(jī)的數(shù)執(zhí):集中識(shí)別出有效的、新穎的、潛在有用的、以及最終可理解的信息的一個(gè)過程。數(shù)據(jù)挖掘的前提是大量相關(guān)數(shù)據(jù)的采集抽取,從這些大量的相關(guān)抽取結(jié)果信息中研究分析出事件發(fā)展的各種念勢(shì)。大量的數(shù)據(jù)和相關(guān)信息足
8、進(jìn)行研究分析的璉礎(chǔ),fⅡ這螳信息和數(shù)據(jù)從何處而來?信息抽取提供了一條進(jìn)行大規(guī)模數(shù)據(jù)及信息挖掘的思路。通過信息抽取,能夠從自由文本中抽取出數(shù)值數(shù)據(jù)和結(jié)構(gòu)化的信息,進(jìn)而實(shí)現(xiàn)大胤模的數(shù)據(jù)挖掘和信息分析。1.2.1W曲信息抽取的定義信息抽取的目標(biāo)【4】是從文本中抽取出特定的事實(shí)信,皂,(FactualInformation)。比如,從書店的貨品欄記錄中抽取出書名,類別,價(jià)格,作者,出版商等等。通常,被抽取出的信息以結(jié)構(gòu)化形式描述,可以直接存入數(shù)據(jù)庫,供用戶查詢以及進(jìn)一步進(jìn)行集成分析。Web信息抽取【4J,就是將Web作為信息源的一類信息抽取。它的主要任務(wù)就是如何將分散在
9、Internet上的半結(jié)