數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用

ID：34043793

大小：69.60 KB

頁(yè)數(shù)：4頁(yè)

時(shí)間：2019-03-03

數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用_第1頁(yè)

數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用_第2頁(yè)

數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用_第3頁(yè)

數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用_第4頁(yè)

資源描述：

《數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、第26卷第6期計(jì)算機(jī)工程與設(shè)計(jì)2005年6月Vol.26No.6ComputerEngineeringandDesignJune2005數(shù)據(jù)抽取及語(yǔ)義分析在Web數(shù)據(jù)挖掘中的應(yīng)用袁占亭，張秋余，李威(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院，甘肅蘭州730050)摘要：把復(fù)雜的網(wǎng)絡(luò)站點(diǎn)作為多個(gè)業(yè)務(wù)數(shù)據(jù)源，采用數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘技術(shù)，從中抽取并凈化數(shù)據(jù)到挖掘數(shù)據(jù)庫(kù)，從而將數(shù)據(jù)抽取及語(yǔ)義分析應(yīng)用于Web數(shù)據(jù)挖掘中。在此基礎(chǔ)上又提出了運(yùn)用數(shù)據(jù)抽取進(jìn)行數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換并把語(yǔ)義分析技術(shù)應(yīng)用到數(shù)據(jù)抽取的過程中的思想，使數(shù)據(jù)提取更加準(zhǔn)確。關(guān)鍵詞：Web；數(shù)據(jù)挖掘；數(shù)據(jù)抽?。徽Z(yǔ)義分析；數(shù)據(jù)結(jié)構(gòu)中圖

2、法分類號(hào)：TP393文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1000-7024(2005)06-1425-03ApplicationofdataextractionandsemanticanalysisinWebminingYUANZhan-ting,ZHANGQiu-yu,LIWei(CollegeofComputerandCommunication,LanzhouUniversityofTechnology,Lanzhou730050,China)Abstract：Amethodispresentedthatappliesdataextractionandsemanticana

3、lysistoWebmining,whichregardscomplicatednetworkwebsiteasalotofbusinessdatasourcesandextractsandpurifiesthesedatatostorethemintoadatabasewiththeaidofdatawarehouseanddataminingtechnology.ByusingthemethodthatbusinessapplicationadoptstocarryondataminingtorealizeWebmining,thekeytechnologyis

4、theconversionofdatastructure.Thismethodusesdataextractionandsemanticanalysisontheconversionofdatastructure,whichmakesdataextractionmoreaccurate.Keywords：web;datamining;dataextraction;semanticanalysis;datastructure現(xiàn)給最終用戶。圖1中描述的是整體實(shí)現(xiàn)Web數(shù)據(jù)挖掘的體1引言系結(jié)構(gòu)。隨著Internet的發(fā)展，如何從大量的Web數(shù)據(jù)中發(fā)現(xiàn)有用網(wǎng)絡(luò)的潛在信息，成

5、為當(dāng)前數(shù)據(jù)挖掘技術(shù)的一個(gè)最重要的應(yīng)用。數(shù)據(jù)挖掘就是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程，這些模型和關(guān)系可以用來做出預(yù)測(cè)。報(bào)表等數(shù)據(jù)表述其中，數(shù)據(jù)挖掘成功的關(guān)鍵就是挖掘工具能準(zhǔn)確地在數(shù)據(jù)倉(cāng)庫(kù)上進(jìn)行數(shù)據(jù)挖掘。因此，能把Web數(shù)據(jù)準(zhǔn)確地從Internet提信息搜索機(jī)器人取到數(shù)據(jù)倉(cāng)庫(kù)，并準(zhǔn)確地提取到數(shù)據(jù)集市是Web數(shù)據(jù)挖掘的結(jié)構(gòu)性半結(jié)構(gòu)性非結(jié)構(gòu)性數(shù)據(jù)挖掘LOAP關(guān)鍵所在。CACHECACHECACHE2系統(tǒng)實(shí)現(xiàn)2.1體系結(jié)構(gòu)設(shè)計(jì)數(shù)據(jù)抽取數(shù)據(jù)抽取數(shù)據(jù)抽取抽取數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)這里的Web數(shù)據(jù)挖掘是一個(gè)二次數(shù)據(jù)挖掘，第1次是通語(yǔ)義分析語(yǔ)義分析語(yǔ)義分析過信息搜索

6、機(jī)器人從Internet上獲取原始信息，然后通過信息的特征將信息分別緩存到cache中，再通過抽取及語(yǔ)義分析獲圖1體系結(jié)構(gòu)圖取與原始數(shù)據(jù)接近且適合進(jìn)一步挖掘的數(shù)據(jù)，將經(jīng)過處理的結(jié)構(gòu)性強(qiáng)的數(shù)據(jù)存取到數(shù)據(jù)倉(cāng)庫(kù)，在這個(gè)數(shù)據(jù)倉(cāng)庫(kù)上，我們可2.2信息獲取以運(yùn)行當(dāng)今比較成熟的挖掘技術(shù)進(jìn)行挖掘，并通過OLAP（On-通過信息搜索機(jī)器人在網(wǎng)絡(luò)上查找站點(diǎn)，并通過HTTP訪lineAnalyticalProcessing）進(jìn)行挖掘結(jié)果的驗(yàn)證，最后將結(jié)果展問獲取信息。對(duì)于動(dòng)態(tài)的站點(diǎn)，我們可以采用預(yù)設(shè)用戶等信收稿日期：2004-05-28?；痦?xiàng)目：甘肅省科技攻關(guān)基金項(xiàng)目(GS021-A5

7、2-54)。作者簡(jiǎn)介：袁占亭（1961-），男，博士生導(dǎo)師，研究方向?yàn)橛?jì)算機(jī)體系結(jié)構(gòu)；張秋余（1966-），男，副研究員，研究方向?yàn)樾畔⑾到y(tǒng)軟件工程；李威（1979-），女，碩士，研究方向?yàn)橛?jì)算語(yǔ)言學(xué)。－1425－息和登錄的過程等信息，由此輔助我們獲取一定的信息。網(wǎng)者是按單詞在文章中出現(xiàn)的位置和次數(shù)打分(如WAIS)，或者絡(luò)中大量的信息都是用URL定位的，機(jī)器人從獲取的信息中是通過對(duì)英文文章或句子的語(yǔ)法和語(yǔ)義分析來提取出該文章自動(dòng)分離出URL是發(fā)現(xiàn)更多信息的簡(jiǎn)潔方法。的主要意思(知識(shí)的提取)。但這些方法都是基于英文本身就2.3信息分類有明顯的詞間分隔這個(gè)事實(shí)上的

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用

數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用

相關(guān)文章

相關(guān)標(biāo)簽