基于文本分類的網(wǎng)絡(luò)知識發(fā)現(xiàn)_呂曹芳.pdf

ID：52768391

大小：700.29 KB

頁數(shù)：3頁

時間：2020-03-30

基于文本分類的網(wǎng)絡(luò)知識發(fā)現(xiàn)_呂曹芳.pdf_第1頁

基于文本分類的網(wǎng)絡(luò)知識發(fā)現(xiàn)_呂曹芳.pdf_第2頁

基于文本分類的網(wǎng)絡(luò)知識發(fā)現(xiàn)_呂曹芳.pdf_第3頁

資源描述：

《基于文本分類的網(wǎng)絡(luò)知識發(fā)現(xiàn)_呂曹芳.pdf》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、計算機(jī)與現(xiàn)代化2013年第2期JISUANJIYUXIANDAIHUA總第210期文章編號:1006-2475(2013)02-0117-03基于文本分類的網(wǎng)絡(luò)知識發(fā)現(xiàn)呂曹芳，薛向鋒，朱岳超，宗軍君(中國人民解放軍陸軍軍官學(xué)院，安徽合肥230031)摘要:研究基于網(wǎng)絡(luò)的文本知識發(fā)現(xiàn)，根據(jù)搜索引擎分類內(nèi)容的特點，通過幾種常用搜索引擎的比較，結(jié)合文本分類的特點，發(fā)現(xiàn)單純搜索文本信息資源的引擎更適合于文本分類;進(jìn)而給出基于文本分類的網(wǎng)絡(luò)信息獲取原型，提出基于元數(shù)據(jù)的用戶感興趣知識的提取模式，用戶可以根據(jù)實際情

2、況在給定范圍內(nèi)提取自己感興趣的文本信息，從而提高文本信息挖掘的精準(zhǔn)性。關(guān)鍵詞:知識發(fā)現(xiàn);文本分類;搜索引擎;規(guī)則挖掘中圖分類號:TP391．1文獻(xiàn)標(biāo)識碼:Adoi:10．3969/j．issn．1006-2475．2013．02．028WebKnowledgeDiscoveryBasedonTextClassificationLCao-fang，XUEXiang-feng，ZHUYue-chao，ZONGJun-jun(ArtilleryAcademyofPLA，Hefei230031，China)A

3、bstract:ThepaperstudiestherelatedtechnologiesoftheChinesetextknowledgediscoveryonInternet，accordingtothefea-turesofsearchenginesclassification，comparingandanalyzingsearchengineswithfeaturesoftextclassification，discoversthattheenginesofsimplexsearchtextin

4、formationismoresuitablefortextclassification．ThispaperproposesaInternetachievingin-formationprototypebasedontextclassification，proposesanextractionmethodonuserknowledgeofinterest，userscanextracttextinformationofinteresttoimproveaccuracyoftextinformationm

5、ining．Keywords:knowledgediscovery;textclassification;searchengine;rulemining面對網(wǎng)上海量的數(shù)據(jù)信息，需要尋找一種相對有0引言效的信息獲取技術(shù)以克服傳統(tǒng)獲取網(wǎng)頁信息人工分互聯(lián)網(wǎng)飛速發(fā)展，網(wǎng)絡(luò)成為了海量數(shù)據(jù)的一個載類的繁瑣、誤差大等缺點。基于文本分類的網(wǎng)絡(luò)知識體，互聯(lián)網(wǎng)用戶可以借助Internet搜尋大量的數(shù)字化發(fā)現(xiàn)是使文本信息資源得以有效利用，同時也可依據(jù)信息，這些數(shù)字化信息可以是文本、數(shù)字、圖形、圖像、需求者的興趣獲取文本信息，

6、通過分類分析進(jìn)而發(fā)現(xiàn)地圖、聲音甚至可以是視頻。但這些信息大都是分散文本信息資源背后隱含的知識。的、無結(jié)構(gòu)數(shù)據(jù)，存在著大量無用或垃圾信息，只有小1搜索引擎部分是有用的信息，這使得人們利用網(wǎng)絡(luò)獲取自己所需的特定領(lǐng)域的信息時比較費(fèi)時費(fèi)力。如何利用現(xiàn)互聯(lián)網(wǎng)的使用給人們帶來了巨大的信息資源，如有的網(wǎng)絡(luò)資源檢索技術(shù)采集互聯(lián)網(wǎng)上特定領(lǐng)域的信何從中取得用戶有用的信息資源，這就需要借助互聯(lián)息，并從數(shù)據(jù)中挖掘出有用的知識?網(wǎng)搜索手段———搜索引擎。文本分類是根據(jù)文本的表現(xiàn)特征將其分到預(yù)先搜索引擎依據(jù)不同的方式可以分為不同的

7、類［3-4］定好的不同類別中，將文本集合的每個文本自動地歸型。國內(nèi)對搜索引擎的區(qū)分通常按照兩類:分類［1-2］入某個類別。需求者可以依據(jù)類別方便地瀏覽文搜索引擎和關(guān)鍵詞搜索引擎。分類搜索引擎需要人檔，還能夠依據(jù)限制搜索范圍使得文檔的查詢更加容工對網(wǎng)站進(jìn)行標(biāo)引和組織，提供分類檢索。關(guān)鍵詞搜易。索引擎是程序自動索引網(wǎng)頁建立數(shù)據(jù)庫，提供關(guān)鍵詞收稿日期:2012-10-23作者簡介:呂曹芳(1979-)，女，安徽壽縣人，中國人民解放軍陸軍軍官學(xué)院講師，碩士，研究方向:數(shù)據(jù)挖掘;薛向鋒(1957-)，男，安徽漢城

8、人，教授，碩士，研究方向:文本數(shù)據(jù)。118計算機(jī)與現(xiàn)代化2013年第2期搜索。較隨意，有時同一個網(wǎng)頁甚至出現(xiàn)多個不同的主題內(nèi)Internet具有數(shù)據(jù)量大、動態(tài)分布、規(guī)模大等特容。Web文檔中的文本內(nèi)容用許多標(biāo)簽標(biāo)記，這些點，用戶實時高效地從網(wǎng)絡(luò)中獲取所需要的有用信息標(biāo)簽形成了Web文檔的結(jié)構(gòu)。因此，需要對文檔進(jìn)有一定的困難。不同搜索引擎搜索的內(nèi)容不同，需求行預(yù)處理，獲取其標(biāo)記其特征的關(guān)鍵數(shù)據(jù)。者可以根據(jù)目標(biāo)的不同選擇適合自己的搜索引擎。面對

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 / 3



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于文本分類的網(wǎng)絡(luò)知識發(fā)現(xiàn)_呂曹芳.pdf

基于文本分類的網(wǎng)絡(luò)知識發(fā)現(xiàn)_呂曹芳.pdf

相關(guān)文章

相關(guān)標(biāo)簽