資源描述:
《網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、《WebDatamining》復習與總結(jié)一、課程主要內(nèi)容數(shù)據(jù)挖掘概述 + WEB數(shù)據(jù)挖掘數(shù)據(jù)挖掘(ch1概述):又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)。是指從數(shù)據(jù)源(如DB、文本、圖片、萬維網(wǎng)等)探尋有用的模式或知識的過程。這些模式必須是有用的、有潛在價值的、并且是可以被理解的。數(shù)據(jù)挖掘是一門多學科交叉的學科,包括機器學習、統(tǒng)計、數(shù)據(jù)庫、人工智能、信息檢索和可視化。WEB數(shù)據(jù)挖掘(ch6-12)的目標是從web超鏈接、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息。依據(jù)挖掘過程中使用的數(shù)據(jù)類別,web挖掘的任務劃分為三種主要的類型:web結(jié)構(gòu)挖掘
2、、web內(nèi)容挖掘和web使用挖掘。web結(jié)構(gòu)挖掘:從表征web結(jié)構(gòu)的超鏈接中尋找知識。Ch6-ch8:信息檢索與web搜索;鏈接分析;web爬取。web內(nèi)容挖掘:從網(wǎng)頁內(nèi)容中抽取有用的信息和知識。Ch9-ch11:結(jié)構(gòu)化數(shù)據(jù)抽?。喊b器生成;信息集成;觀點挖掘。web使用挖掘:從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。Ch12:web使用挖掘二、各章主要知識點(一)(ch1)概述——主要知識點1、萬維網(wǎng)、超文本、超鏈接、超媒體的概念;2、HTTP,HTML,URL,WEB,TCP/IP的含義;3、Web數(shù)據(jù)的特點:P5-
3、6;4、數(shù)據(jù)挖掘的定義、數(shù)據(jù)挖掘任務、KDD過程、KDD的數(shù)據(jù)類型等;5、Web數(shù)據(jù)挖掘的定義、分類、web數(shù)據(jù)挖掘過程等。6、關(guān)聯(lián)規(guī)則、列模式挖掘、分類與預測、聚類挖掘的基本概念及挖掘思想。WEB結(jié)構(gòu)挖掘:包括——信息檢索與WEB搜索、鏈接分析、WEB爬取(二)(ch6)信息檢索與web搜索1、基本概念:(1)信息檢索IR:即幫助使用者從大號的數(shù)據(jù)集信息中發(fā)現(xiàn)需要的資料。了信息的采集、組織、存儲、檢索及分發(fā)。根據(jù)用戶的查詢信息得到相應的一組文檔,得到的結(jié)果根據(jù)其與用戶查詢信息的相關(guān)程序排序,最常用的用戶查詢信息是一組關(guān)鍵字(又稱詞
4、)。其基本信息是單個文檔,大量的文檔形成文本數(shù)據(jù)庫。(2)web搜索:是信息檢索的一個重要分支。區(qū)別于信息檢索的特點是:效率是WEB搜索的一個最為重要的問題;網(wǎng)頁與傳統(tǒng)信息檢索系統(tǒng)中使用的普通文檔不同:(1)具有超鏈接以及錨文本、(2)網(wǎng)頁是半結(jié)構(gòu)化的、(3)網(wǎng)頁中的內(nèi)容基本上是有組織的,并且在一些結(jié)構(gòu)塊中出現(xiàn);作弊技術(shù)是網(wǎng)絡(luò)上的一個重要的問題。(3)IR基本架構(gòu):用戶查詢(關(guān)鍵字查詢、布爾查詢、短語查詢、鄰近查詢、全文查詢、自然語言查詢等)+查詢操作(作簡單預處理如STOPWORDS刪除等發(fā)送到檢索引擎、或處理用戶反饋——關(guān)聯(lián)性反
5、饋)+索引器(為提高查詢效率對原始文檔用某種數(shù)據(jù)結(jié)構(gòu)做索引,形成文檔索引——返回文檔索引,如倒排索引)+檢索系統(tǒng)(為每個索引文檔計算與查詢的相關(guān)度分數(shù))關(guān)鍵字查詢布爾查詢短語查詢鄰近查詢?nèi)牟樵冏匀徽Z言查詢預處理關(guān)聯(lián)性反饋倒排索引計算文檔與查詢的相關(guān)度分數(shù)布爾模型(布爾查詢:AND、OR、NOT)向量空間模型(TF表、TF-IDF表、查詢、相關(guān)度排名)語言模型概率模型關(guān)聯(lián)性反饋(4)查全率(recall)、查準率(precision)、查準率-查全率曲線(PR曲線)、排名查準率(rankprecision)、F-score(5)網(wǎng)頁
6、預處理:移除停用詞、詞干提取、數(shù)字、連字號、標點、字符大小寫的處理;辨別不同的字段;辨別錨文本;移除HTML標簽;辨別主要內(nèi)容塊;(6)副本探測(對整個文本Hash——MD5算法;基于n元短語的副本探測技術(shù)):即復制頁面,可減少索引大小,改善搜索效率;鏡像:復制站點的技術(shù)。(7)倒排索引:是一張列表,包含了每一個不同的詞和包含該詞的文檔列表??杉涌鞕z索和查詢的速度。其本身構(gòu)建速度也非???。記錄格式:〈idj,fij,[o1,o2,…..o
7、fij
8、]〉倒排索引的建立及壓縮:搜索引擎——基于向量空間模型和詞匹配模型。爬取網(wǎng)頁?。≡阉?/p>
9、引擎和組合多種排序:略網(wǎng)絡(luò)作弊的概念及分類:l內(nèi)容作弊(詞組作弊):標題、元標記、正文、錨文本、網(wǎng)址。如內(nèi)容重復、或添加其他不相關(guān)的l鏈接作弊(影響知名度分數(shù)):鏈出鏈接作弊(指向中心頁面——目錄克隆)或鏈入鏈接作弊(創(chuàng)建蜜罐、網(wǎng)絡(luò)目錄中添加鏈接、用戶生成內(nèi)容是添加鏈接、交換鏈接、自發(fā)添加等)l隱藏技術(shù):內(nèi)容隱藏(隱藏垃圾項)、掩飾技術(shù)(垃圾網(wǎng)絡(luò)服務器、重定向技術(shù)等)l抵制作弊:分類處理——區(qū)別對待內(nèi)容作弊、鏈接作弊、隱藏技術(shù)等;信任排名方法可用。2、主要知識點(1)IR系統(tǒng)的基本架構(gòu)及原理l用戶查詢的主要形式:關(guān)鍵字查詢、布爾查詢
10、、短語查詢、鄰近查詢、全文查詢、自然語言查詢的含義l查詢操作l索引器l檢索系統(tǒng)(2)信息檢索模型主要有四種信息檢索模型:布爾模型、向量空間模型、語言模型、概率模型。熟悉布爾模型、向量空間模型的基本原理,了解統(tǒng)計語言模型、概率模型。布爾