網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題

網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題

ID:19617711

大?。?33.50 KB

頁數(shù):17頁

時間:2018-10-04

網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題_第1頁
網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題_第2頁
網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題_第3頁
網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題_第4頁
網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題_第5頁
資源描述:

《網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、《WebDatamining》復習與總結(jié)一、課程主要內(nèi)容數(shù)據(jù)挖掘概述 + WEB數(shù)據(jù)挖掘數(shù)據(jù)挖掘(ch1概述):又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)。是指從數(shù)據(jù)源(如DB、文本、圖片、萬維網(wǎng)等)探尋有用的模式或知識的過程。這些模式必須是有用的、有潛在價值的、并且是可以被理解的。數(shù)據(jù)挖掘是一門多學科交叉的學科,包括機器學習、統(tǒng)計、數(shù)據(jù)庫、人工智能、信息檢索和可視化。WEB數(shù)據(jù)挖掘(ch6-12)的目標是從web超鏈接、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息。依據(jù)挖掘過程中使用的數(shù)據(jù)類別,web挖掘的任務劃分為三種主要的類型:web結(jié)構(gòu)挖掘

2、、web內(nèi)容挖掘和web使用挖掘。web結(jié)構(gòu)挖掘:從表征web結(jié)構(gòu)的超鏈接中尋找知識。Ch6-ch8:信息檢索與web搜索;鏈接分析;web爬取。web內(nèi)容挖掘:從網(wǎng)頁內(nèi)容中抽取有用的信息和知識。Ch9-ch11:結(jié)構(gòu)化數(shù)據(jù)抽?。喊b器生成;信息集成;觀點挖掘。web使用挖掘:從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。Ch12:web使用挖掘二、各章主要知識點(一)(ch1)概述——主要知識點1、萬維網(wǎng)、超文本、超鏈接、超媒體的概念;2、HTTP,HTML,URL,WEB,TCP/IP的含義;3、Web數(shù)據(jù)的特點:P5-

3、6;4、數(shù)據(jù)挖掘的定義、數(shù)據(jù)挖掘任務、KDD過程、KDD的數(shù)據(jù)類型等;5、Web數(shù)據(jù)挖掘的定義、分類、web數(shù)據(jù)挖掘過程等。6、關(guān)聯(lián)規(guī)則、列模式挖掘、分類與預測、聚類挖掘的基本概念及挖掘思想。WEB結(jié)構(gòu)挖掘:包括——信息檢索與WEB搜索、鏈接分析、WEB爬取(二)(ch6)信息檢索與web搜索1、基本概念:(1)信息檢索IR:即幫助使用者從大號的數(shù)據(jù)集信息中發(fā)現(xiàn)需要的資料。了信息的采集、組織、存儲、檢索及分發(fā)。根據(jù)用戶的查詢信息得到相應的一組文檔,得到的結(jié)果根據(jù)其與用戶查詢信息的相關(guān)程序排序,最常用的用戶查詢信息是一組關(guān)鍵字(又稱詞

4、)。其基本信息是單個文檔,大量的文檔形成文本數(shù)據(jù)庫。(2)web搜索:是信息檢索的一個重要分支。區(qū)別于信息檢索的特點是:效率是WEB搜索的一個最為重要的問題;網(wǎng)頁與傳統(tǒng)信息檢索系統(tǒng)中使用的普通文檔不同:(1)具有超鏈接以及錨文本、(2)網(wǎng)頁是半結(jié)構(gòu)化的、(3)網(wǎng)頁中的內(nèi)容基本上是有組織的,并且在一些結(jié)構(gòu)塊中出現(xiàn);作弊技術(shù)是網(wǎng)絡(luò)上的一個重要的問題。(3)IR基本架構(gòu):用戶查詢(關(guān)鍵字查詢、布爾查詢、短語查詢、鄰近查詢、全文查詢、自然語言查詢等)+查詢操作(作簡單預處理如STOPWORDS刪除等發(fā)送到檢索引擎、或處理用戶反饋——關(guān)聯(lián)性反

5、饋)+索引器(為提高查詢效率對原始文檔用某種數(shù)據(jù)結(jié)構(gòu)做索引,形成文檔索引——返回文檔索引,如倒排索引)+檢索系統(tǒng)(為每個索引文檔計算與查詢的相關(guān)度分數(shù))關(guān)鍵字查詢布爾查詢短語查詢鄰近查詢?nèi)牟樵冏匀徽Z言查詢預處理關(guān)聯(lián)性反饋倒排索引計算文檔與查詢的相關(guān)度分數(shù)布爾模型(布爾查詢:AND、OR、NOT)向量空間模型(TF表、TF-IDF表、查詢、相關(guān)度排名)語言模型概率模型關(guān)聯(lián)性反饋(4)查全率(recall)、查準率(precision)、查準率-查全率曲線(PR曲線)、排名查準率(rankprecision)、F-score(5)網(wǎng)頁

6、預處理:移除停用詞、詞干提取、數(shù)字、連字號、標點、字符大小寫的處理;辨別不同的字段;辨別錨文本;移除HTML標簽;辨別主要內(nèi)容塊;(6)副本探測(對整個文本Hash——MD5算法;基于n元短語的副本探測技術(shù)):即復制頁面,可減少索引大小,改善搜索效率;鏡像:復制站點的技術(shù)。(7)倒排索引:是一張列表,包含了每一個不同的詞和包含該詞的文檔列表??杉涌鞕z索和查詢的速度。其本身構(gòu)建速度也非???。記錄格式:〈idj,fij,[o1,o2,…..o

7、fij

8、]〉倒排索引的建立及壓縮:搜索引擎——基于向量空間模型和詞匹配模型。爬取網(wǎng)頁?。≡阉?/p>

9、引擎和組合多種排序:略網(wǎng)絡(luò)作弊的概念及分類:l內(nèi)容作弊(詞組作弊):標題、元標記、正文、錨文本、網(wǎng)址。如內(nèi)容重復、或添加其他不相關(guān)的l鏈接作弊(影響知名度分數(shù)):鏈出鏈接作弊(指向中心頁面——目錄克隆)或鏈入鏈接作弊(創(chuàng)建蜜罐、網(wǎng)絡(luò)目錄中添加鏈接、用戶生成內(nèi)容是添加鏈接、交換鏈接、自發(fā)添加等)l隱藏技術(shù):內(nèi)容隱藏(隱藏垃圾項)、掩飾技術(shù)(垃圾網(wǎng)絡(luò)服務器、重定向技術(shù)等)l抵制作弊:分類處理——區(qū)別對待內(nèi)容作弊、鏈接作弊、隱藏技術(shù)等;信任排名方法可用。2、主要知識點(1)IR系統(tǒng)的基本架構(gòu)及原理l用戶查詢的主要形式:關(guān)鍵字查詢、布爾查詢

10、、短語查詢、鄰近查詢、全文查詢、自然語言查詢的含義l查詢操作l索引器l檢索系統(tǒng)(2)信息檢索模型主要有四種信息檢索模型:布爾模型、向量空間模型、語言模型、概率模型。熟悉布爾模型、向量空間模型的基本原理,了解統(tǒng)計語言模型、概率模型。布爾

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。