數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用

數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用

ID:34043793

大小:69.60 KB

頁(yè)數(shù):4頁(yè)

時(shí)間:2019-03-03

數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用_第1頁(yè)
數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用_第2頁(yè)
數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用_第3頁(yè)
數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用_第4頁(yè)
資源描述:

《數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)

1、第26卷第6期計(jì)算機(jī)工程與設(shè)計(jì)2005年6月Vol.26No.6ComputerEngineeringandDesignJune2005數(shù)據(jù)抽取及語(yǔ)義分析在Web數(shù)據(jù)挖掘中的應(yīng)用袁占亭,張秋余,李威(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院,甘肅蘭州730050)摘要:把復(fù)雜的網(wǎng)絡(luò)站點(diǎn)作為多個(gè)業(yè)務(wù)數(shù)據(jù)源,采用數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘技術(shù),從中抽取并凈化數(shù)據(jù)到挖掘數(shù)據(jù)庫(kù),從而將數(shù)據(jù)抽取及語(yǔ)義分析應(yīng)用于Web數(shù)據(jù)挖掘中。在此基礎(chǔ)上又提出了運(yùn)用數(shù)據(jù)抽取進(jìn)行數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換并把語(yǔ)義分析技術(shù)應(yīng)用到數(shù)據(jù)抽取的過程中的思想,使數(shù)據(jù)提取更加準(zhǔn)確。關(guān)鍵詞:Web;數(shù)據(jù)挖掘;數(shù)據(jù)抽?。徽Z(yǔ)義分析;數(shù)據(jù)結(jié)構(gòu)中圖

2、法分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-7024(2005)06-1425-03ApplicationofdataextractionandsemanticanalysisinWebminingYUANZhan-ting,ZHANGQiu-yu,LIWei(CollegeofComputerandCommunication,LanzhouUniversityofTechnology,Lanzhou730050,China)Abstract:Amethodispresentedthatappliesdataextractionandsemanticana

3、lysistoWebmining,whichregardscomplicatednetworkwebsiteasalotofbusinessdatasourcesandextractsandpurifiesthesedatatostorethemintoadatabasewiththeaidofdatawarehouseanddataminingtechnology.ByusingthemethodthatbusinessapplicationadoptstocarryondataminingtorealizeWebmining,thekeytechnologyis

4、theconversionofdatastructure.Thismethodusesdataextractionandsemanticanalysisontheconversionofdatastructure,whichmakesdataextractionmoreaccurate.Keywords:web;datamining;dataextraction;semanticanalysis;datastructure現(xiàn)給最終用戶。圖1中描述的是整體實(shí)現(xiàn)Web數(shù)據(jù)挖掘的體1引言系結(jié)構(gòu)。隨著Internet的發(fā)展,如何從大量的Web數(shù)據(jù)中發(fā)現(xiàn)有用網(wǎng)絡(luò)的潛在信息,成

5、為當(dāng)前數(shù)據(jù)挖掘技術(shù)的一個(gè)最重要的應(yīng)用。數(shù)據(jù)挖掘就是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出預(yù)測(cè)。報(bào)表等數(shù)據(jù)表述其中,數(shù)據(jù)挖掘成功的關(guān)鍵就是挖掘工具能準(zhǔn)確地在數(shù)據(jù)倉(cāng)庫(kù)上進(jìn)行數(shù)據(jù)挖掘。因此,能把Web數(shù)據(jù)準(zhǔn)確地從Internet提信息搜索機(jī)器人取到數(shù)據(jù)倉(cāng)庫(kù),并準(zhǔn)確地提取到數(shù)據(jù)集市是Web數(shù)據(jù)挖掘的結(jié)構(gòu)性半結(jié)構(gòu)性非結(jié)構(gòu)性數(shù)據(jù)挖掘LOAP關(guān)鍵所在。CACHECACHECACHE2系統(tǒng)實(shí)現(xiàn)2.1體系結(jié)構(gòu)設(shè)計(jì)數(shù)據(jù)抽取數(shù)據(jù)抽取數(shù)據(jù)抽取抽取數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)這里的Web數(shù)據(jù)挖掘是一個(gè)二次數(shù)據(jù)挖掘,第1次是通語(yǔ)義分析語(yǔ)義分析語(yǔ)義分析過信息搜索

6、機(jī)器人從Internet上獲取原始信息,然后通過信息的特征將信息分別緩存到cache中,再通過抽取及語(yǔ)義分析獲圖1體系結(jié)構(gòu)圖取與原始數(shù)據(jù)接近且適合進(jìn)一步挖掘的數(shù)據(jù),將經(jīng)過處理的結(jié)構(gòu)性強(qiáng)的數(shù)據(jù)存取到數(shù)據(jù)倉(cāng)庫(kù),在這個(gè)數(shù)據(jù)倉(cāng)庫(kù)上,我們可2.2信息獲取以運(yùn)行當(dāng)今比較成熟的挖掘技術(shù)進(jìn)行挖掘,并通過OLAP(On-通過信息搜索機(jī)器人在網(wǎng)絡(luò)上查找站點(diǎn),并通過HTTP訪lineAnalyticalProcessing)進(jìn)行挖掘結(jié)果的驗(yàn)證,最后將結(jié)果展問獲取信息。對(duì)于動(dòng)態(tài)的站點(diǎn),我們可以采用預(yù)設(shè)用戶等信收稿日期:2004-05-28?;痦?xiàng)目:甘肅省科技攻關(guān)基金項(xiàng)目(GS021-A5

7、2-54)。作者簡(jiǎn)介:袁占亭(1961-),男,博士生導(dǎo)師,研究方向?yàn)橛?jì)算機(jī)體系結(jié)構(gòu);張秋余(1966-),男,副研究員,研究方向?yàn)樾畔⑾到y(tǒng)軟件工程;李威(1979-),女,碩士,研究方向?yàn)橛?jì)算語(yǔ)言學(xué)。-1425-息和登錄的過程等信息,由此輔助我們獲取一定的信息。網(wǎng)者是按單詞在文章中出現(xiàn)的位置和次數(shù)打分(如WAIS),或者絡(luò)中大量的信息都是用URL定位的,機(jī)器人從獲取的信息中是通過對(duì)英文文章或句子的語(yǔ)法和語(yǔ)義分析來提取出該文章自動(dòng)分離出URL是發(fā)現(xiàn)更多信息的簡(jiǎn)潔方法。的主要意思(知識(shí)的提取)。但這些方法都是基于英文本身就2.3信息分類有明顯的詞間分隔這個(gè)事實(shí)上的

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。