網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題

ID：19617711

大?。?33.50 KB

頁數(shù)：17頁

時間：2018-10-04

網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題_第1頁

網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題_第2頁

網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題_第3頁

網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題_第4頁

網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題_第5頁

資源描述：

《網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、《WebDatamining》復習與總結(jié)一、課程主要內(nèi)容數(shù)據(jù)挖掘概述　+　WEB數(shù)據(jù)挖掘數(shù)據(jù)挖掘（ch1概述）：又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)（ＫＤＤ）。是指從數(shù)據(jù)源（如DB、文本、圖片、萬維網(wǎng)等）探尋有用的模式或知識的過程。這些模式必須是有用的、有潛在價值的、并且是可以被理解的。數(shù)據(jù)挖掘是一門多學科交叉的學科，包括機器學習、統(tǒng)計、數(shù)據(jù)庫、人工智能、信息檢索和可視化。WEB數(shù)據(jù)挖掘（ch6-12）的目標是從web超鏈接、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息。依據(jù)挖掘過程中使用的數(shù)據(jù)類別，web挖掘的任務劃分為三種主要的類型：web結(jié)構(gòu)挖掘

2、、web內(nèi)容挖掘和web使用挖掘。web結(jié)構(gòu)挖掘：從表征web結(jié)構(gòu)的超鏈接中尋找知識。Ch6-ch8：信息檢索與web搜索；鏈接分析；web爬取。web內(nèi)容挖掘：從網(wǎng)頁內(nèi)容中抽取有用的信息和知識。Ch9-ch11：結(jié)構(gòu)化數(shù)據(jù)抽?。喊b器生成；信息集成；觀點挖掘。web使用挖掘：從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。Ch12：web使用挖掘二、各章主要知識點（一）（ch1）概述——主要知識點1、萬維網(wǎng)、超文本、超鏈接、超媒體的概念；2、HTTP，HTML，URL，WEB，TCP/IP的含義；3、Web數(shù)據(jù)的特點：P5－

3、6；4、數(shù)據(jù)挖掘的定義、數(shù)據(jù)挖掘任務、KDD過程、KDD的數(shù)據(jù)類型等；5、Web數(shù)據(jù)挖掘的定義、分類、web數(shù)據(jù)挖掘過程等。6、關(guān)聯(lián)規(guī)則、列模式挖掘、分類與預測、聚類挖掘的基本概念及挖掘思想。WEB結(jié)構(gòu)挖掘：包括——信息檢索與WEB搜索、鏈接分析、WEB爬取（二）（ch6）信息檢索與web搜索1、基本概念：（1）信息檢索IR：即幫助使用者從大號的數(shù)據(jù)集信息中發(fā)現(xiàn)需要的資料。了信息的采集、組織、存儲、檢索及分發(fā)。根據(jù)用戶的查詢信息得到相應的一組文檔，得到的結(jié)果根據(jù)其與用戶查詢信息的相關(guān)程序排序，最常用的用戶查詢信息是一組關(guān)鍵字（又稱詞

4、）。其基本信息是單個文檔，大量的文檔形成文本數(shù)據(jù)庫。（2）web搜索：是信息檢索的一個重要分支。區(qū)別于信息檢索的特點是：效率是WEB搜索的一個最為重要的問題；網(wǎng)頁與傳統(tǒng)信息檢索系統(tǒng)中使用的普通文檔不同：（1）具有超鏈接以及錨文本、（2）網(wǎng)頁是半結(jié)構(gòu)化的、（3）網(wǎng)頁中的內(nèi)容基本上是有組織的，并且在一些結(jié)構(gòu)塊中出現(xiàn)；作弊技術(shù)是網(wǎng)絡(luò)上的一個重要的問題。（3）IR基本架構(gòu)：用戶查詢（關(guān)鍵字查詢、布爾查詢、短語查詢、鄰近查詢、全文查詢、自然語言查詢等）+查詢操作（作簡單預處理如STOPWORDS刪除等發(fā)送到檢索引擎、或處理用戶反饋——關(guān)聯(lián)性反

5、饋）+索引器（為提高查詢效率對原始文檔用某種數(shù)據(jù)結(jié)構(gòu)做索引，形成文檔索引——返回文檔索引，如倒排索引）+檢索系統(tǒng)（為每個索引文檔計算與查詢的相關(guān)度分數(shù)）關(guān)鍵字查詢布爾查詢短語查詢鄰近查詢?nèi)牟樵冏匀徽Z言查詢預處理關(guān)聯(lián)性反饋倒排索引計算文檔與查詢的相關(guān)度分數(shù)布爾模型（布爾查詢：AND、OR、NOT）向量空間模型（TF表、TF－IDF表、查詢、相關(guān)度排名）語言模型概率模型關(guān)聯(lián)性反饋（4）查全率（recall）、查準率（precision）、查準率－查全率曲線（PR曲線）、排名查準率（rankprecision）、F-score（5）網(wǎng)頁

6、預處理：移除停用詞、詞干提取、數(shù)字、連字號、標點、字符大小寫的處理；辨別不同的字段；辨別錨文本；移除HTML標簽；辨別主要內(nèi)容塊；（6）副本探測（對整個文本Hash——MD5算法；基于n元短語的副本探測技術(shù)）：即復制頁面，可減少索引大小，改善搜索效率；鏡像：復制站點的技術(shù)。（7）倒排索引：是一張列表，包含了每一個不同的詞和包含該詞的文檔列表?？杉涌鞕z索和查詢的速度。其本身構(gòu)建速度也非?？?。記錄格式：〈idj,fij,[o1,o2,…..o

7、fij

8、]〉倒排索引的建立及壓縮：搜索引擎——基于向量空間模型和詞匹配模型。爬取網(wǎng)頁?。≡阉?/p>

9、引擎和組合多種排序：略網(wǎng)絡(luò)作弊的概念及分類：l內(nèi)容作弊（詞組作弊）：標題、元標記、正文、錨文本、網(wǎng)址。如內(nèi)容重復、或添加其他不相關(guān)的l鏈接作弊（影響知名度分數(shù)）：鏈出鏈接作弊（指向中心頁面——目錄克隆）或鏈入鏈接作弊（創(chuàng)建蜜罐、網(wǎng)絡(luò)目錄中添加鏈接、用戶生成內(nèi)容是添加鏈接、交換鏈接、自發(fā)添加等）l隱藏技術(shù)：內(nèi)容隱藏（隱藏垃圾項）、掩飾技術(shù)（垃圾網(wǎng)絡(luò)服務器、重定向技術(shù)等）l抵制作弊：分類處理——區(qū)別對待內(nèi)容作弊、鏈接作弊、隱藏技術(shù)等；信任排名方法可用。2、主要知識點（1）IR系統(tǒng)的基本架構(gòu)及原理l用戶查詢的主要形式：關(guān)鍵字查詢、布爾查詢

10、、短語查詢、鄰近查詢、全文查詢、自然語言查詢的含義l查詢操作l索引器l檢索系統(tǒng)（2）信息檢索模型主要有四種信息檢索模型：布爾模型、向量空間模型、語言模型、概率模型。熟悉布爾模型、向量空間模型的基本原理，了解統(tǒng)計語言模型、概率模型。布爾

當前文檔最多預覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 17



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題

網(wǎng)絡(luò)時代的版權(quán)產(chǎn)業(yè)和版權(quán)保護問題

相關(guān)文章

相關(guān)標簽