資源描述:
《數(shù)據(jù)抽取及語(yǔ)義分析在web數(shù)據(jù)挖掘中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、第26卷第6期計(jì)算機(jī)工程與設(shè)計(jì)2005年6月Vol.26No.6ComputerEngineeringandDesignJune2005數(shù)據(jù)抽取及語(yǔ)義分析在Web數(shù)據(jù)挖掘中的應(yīng)用袁占亭,張秋余,李威(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院,甘肅蘭州730050)摘要:把復(fù)雜的網(wǎng)絡(luò)站點(diǎn)作為多個(gè)業(yè)務(wù)數(shù)據(jù)源,采用數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘技術(shù),從中抽取并凈化數(shù)據(jù)到挖掘數(shù)據(jù)庫(kù),從而將數(shù)據(jù)抽取及語(yǔ)義分析應(yīng)用于Web數(shù)據(jù)挖掘中。在此基礎(chǔ)上又提出了運(yùn)用數(shù)據(jù)抽取進(jìn)行數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換并把語(yǔ)義分析技術(shù)應(yīng)用到數(shù)據(jù)抽取的過程中的思想,使數(shù)據(jù)提取更加準(zhǔn)確。關(guān)鍵詞:Web;數(shù)據(jù)挖掘;數(shù)據(jù)抽?。徽Z(yǔ)義分析;數(shù)據(jù)結(jié)構(gòu)中圖
2、法分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-7024(2005)06-1425-03ApplicationofdataextractionandsemanticanalysisinWebminingYUANZhan-ting,ZHANGQiu-yu,LIWei(CollegeofComputerandCommunication,LanzhouUniversityofTechnology,Lanzhou730050,China)Abstract:Amethodispresentedthatappliesdataextractionandsemanticana
3、lysistoWebmining,whichregardscomplicatednetworkwebsiteasalotofbusinessdatasourcesandextractsandpurifiesthesedatatostorethemintoadatabasewiththeaidofdatawarehouseanddataminingtechnology.ByusingthemethodthatbusinessapplicationadoptstocarryondataminingtorealizeWebmining,thekeytechnologyis
4、theconversionofdatastructure.Thismethodusesdataextractionandsemanticanalysisontheconversionofdatastructure,whichmakesdataextractionmoreaccurate.Keywords:web;datamining;dataextraction;semanticanalysis;datastructure現(xiàn)給最終用戶。圖1中描述的是整體實(shí)現(xiàn)Web數(shù)據(jù)挖掘的體1引言系結(jié)構(gòu)。隨著Internet的發(fā)展,如何從大量的Web數(shù)據(jù)中發(fā)現(xiàn)有用網(wǎng)絡(luò)的潛在信息,成
5、為當(dāng)前數(shù)據(jù)挖掘技術(shù)的一個(gè)最重要的應(yīng)用。數(shù)據(jù)挖掘就是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出預(yù)測(cè)。報(bào)表等數(shù)據(jù)表述其中,數(shù)據(jù)挖掘成功的關(guān)鍵就是挖掘工具能準(zhǔn)確地在數(shù)據(jù)倉(cāng)庫(kù)上進(jìn)行數(shù)據(jù)挖掘。因此,能把Web數(shù)據(jù)準(zhǔn)確地從Internet提信息搜索機(jī)器人取到數(shù)據(jù)倉(cāng)庫(kù),并準(zhǔn)確地提取到數(shù)據(jù)集市是Web數(shù)據(jù)挖掘的結(jié)構(gòu)性半結(jié)構(gòu)性非結(jié)構(gòu)性數(shù)據(jù)挖掘LOAP關(guān)鍵所在。CACHECACHECACHE2系統(tǒng)實(shí)現(xiàn)2.1體系結(jié)構(gòu)設(shè)計(jì)數(shù)據(jù)抽取數(shù)據(jù)抽取數(shù)據(jù)抽取抽取數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)這里的Web數(shù)據(jù)挖掘是一個(gè)二次數(shù)據(jù)挖掘,第1次是通語(yǔ)義分析語(yǔ)義分析語(yǔ)義分析過信息搜索
6、機(jī)器人從Internet上獲取原始信息,然后通過信息的特征將信息分別緩存到cache中,再通過抽取及語(yǔ)義分析獲圖1體系結(jié)構(gòu)圖取與原始數(shù)據(jù)接近且適合進(jìn)一步挖掘的數(shù)據(jù),將經(jīng)過處理的結(jié)構(gòu)性強(qiáng)的數(shù)據(jù)存取到數(shù)據(jù)倉(cāng)庫(kù),在這個(gè)數(shù)據(jù)倉(cāng)庫(kù)上,我們可2.2信息獲取以運(yùn)行當(dāng)今比較成熟的挖掘技術(shù)進(jìn)行挖掘,并通過OLAP(On-通過信息搜索機(jī)器人在網(wǎng)絡(luò)上查找站點(diǎn),并通過HTTP訪lineAnalyticalProcessing)進(jìn)行挖掘結(jié)果的驗(yàn)證,最后將結(jié)果展問獲取信息。對(duì)于動(dòng)態(tài)的站點(diǎn),我們可以采用預(yù)設(shè)用戶等信收稿日期:2004-05-28?;痦?xiàng)目:甘肅省科技攻關(guān)基金項(xiàng)目(GS021-A5
7、2-54)。作者簡(jiǎn)介:袁占亭(1961-),男,博士生導(dǎo)師,研究方向?yàn)橛?jì)算機(jī)體系結(jié)構(gòu);張秋余(1966-),男,副研究員,研究方向?yàn)樾畔⑾到y(tǒng)軟件工程;李威(1979-),女,碩士,研究方向?yàn)橛?jì)算語(yǔ)言學(xué)。-1425-息和登錄的過程等信息,由此輔助我們獲取一定的信息。網(wǎng)者是按單詞在文章中出現(xiàn)的位置和次數(shù)打分(如WAIS),或者絡(luò)中大量的信息都是用URL定位的,機(jī)器人從獲取的信息中是通過對(duì)英文文章或句子的語(yǔ)法和語(yǔ)義分析來提取出該文章自動(dòng)分離出URL是發(fā)現(xiàn)更多信息的簡(jiǎn)潔方法。的主要意思(知識(shí)的提取)。但這些方法都是基于英文本身就2.3信息分類有明顯的詞間分隔這個(gè)事實(shí)上的