文本挖掘與Web挖掘

文本挖掘與Web挖掘

ID:40624853

大?。?2.50 KB

頁數(shù):12頁

時間:2019-08-05

文本挖掘與Web挖掘_第1頁
文本挖掘與Web挖掘_第2頁
文本挖掘與Web挖掘_第3頁
文本挖掘與Web挖掘_第4頁
文本挖掘與Web挖掘_第5頁
資源描述:

《文本挖掘與Web挖掘》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。

1、文本挖掘與Web挖掘文本挖掘的基本概念文本挖掘時從大量數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。它除了從文本中提取關鍵字外,還要提取事實、作者的意圖、期望和主張等。這些知識對許多應用如市場營銷、趨勢分析等都很有用。相對于數(shù)據(jù)挖掘,文本挖掘的對象是半結構化或非結構化的。文本挖掘的主要任務短語提取。概念提取可視化顯示和導航文本挖掘和數(shù)據(jù)挖掘的區(qū)別數(shù)據(jù)挖掘數(shù)字表示的數(shù)據(jù)關系數(shù)據(jù)庫預測以后決策樹、神經(jīng)網(wǎng)絡等1994年起文本挖掘無結構或半結構開放的文本提取概念提取短語,關聯(lián)分析、聚類、分

2、類2000年起文本特征的表示每個文本d表示為一個規(guī)范化的特征向量:V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d))其中ti為詞條項,wi(d)為ti在d中的權值。Wi(d)一般被定義為ti在d中出現(xiàn)頻率tf(d)的函數(shù)。即wi(d)=?(tf(d)).1.布爾函數(shù)?={2.平方根函數(shù)?=10文本特征的提取一般特征:人名、組織名數(shù)字特征:日期、時間、貨幣、數(shù)字文本挖掘關鍵字檢索相似檢索詞語關聯(lián)分析文本聚類和分類自然語言處理關鍵詞相似檢索詞語關聯(lián)分析文本聚類文本分類自然語言

3、處理關聯(lián)分析首先對文本進行詞根處理,去除非用詞等預處理,然后調用關聯(lián)挖掘算法。在文本數(shù)據(jù)庫中,每一個文本被視為一個事務,文本中的關鍵詞組可視為事務中的一組事務項。這樣文本數(shù)據(jù)庫中關鍵詞關聯(lián)挖掘問題就變成事務數(shù)據(jù)庫中事務項的關聯(lián)挖掘。文本聚類層次聚類法平面劃分法文本分類用信息檢索技術提取關鍵詞和詞組生成關鍵詞和詞組的概念層次關聯(lián)挖掘用于發(fā)現(xiàn)關聯(lián)詞。區(qū)分一類文本與另一類文本。Web挖掘簡介信息龐大信息復雜信息是動態(tài)的信息使用者復雜信息中的垃圾非常多Web挖掘分類Web挖掘內容挖掘結構挖掘應用挖掘頁面

4、內容挖掘搜索結果挖掘使用模式挖掘個性使用挖掘

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。