R語言數(shù)據(jù)挖掘.doc

ID：56979465

大?。?01.50 KB

頁數(shù)：21頁

時間：2020-07-30

資源描述：

《R語言數(shù)據(jù)挖掘.doc》由會員上傳分享，免費在線閱讀，更多相關內(nèi)容在教育資源-天天文庫。

1、R語言數(shù)據(jù)挖掘論文題目：數(shù)據(jù)挖掘實戰(zhàn)之網(wǎng)站智能推薦服務指導老師:張敏小組成員：周犬義王寧數(shù)據(jù)挖掘實戰(zhàn)之網(wǎng)站智能推薦服務一、背景與挖掘目標伴隨著計算機技術、通信技術的日益成熟和廣泛應用，互聯(lián)網(wǎng)自90年代初開始得到迅猛發(fā)展，至今雖然只有短短幾十年的時間，但它已經(jīng)發(fā)展成為現(xiàn)今信息時代人類生活中不可或缺的重要組成部分，并成為全球范圍內(nèi)傳播信息的主要渠道。隨之而來的是互聯(lián)網(wǎng)上信息資源越來越豐富，人們要在浩如煙海的“混亂的”互聯(lián)網(wǎng)信息世界中找到自己真正感興趣信息卻存在很大的困難，具體表現(xiàn)在：用戶不知道如何貼切表達真正想要的網(wǎng)上資源的需求，也不知道如何去更準確有效地尋找，即所謂

2、的“信息迷失”問題；和對收到的或已經(jīng)下載的大量無關的信息難以消化，即所謂的“信息過載”問題。雖然我們可以借助于搜索引擎來檢索Web上的信息，但仍不能滿足不同背景、不同目的和不同時期的查詢要求，因為大多數(shù)搜索引擎缺少主動性，沒有考慮用戶的興趣偏好和用戶的不同，無法有效地解決信息過載和信息迷失的問題。為了適應用戶不斷增長的信息需求，有效地解決信息過載和信息迷失給人們帶來的種種問題，研究人員紛紛從人工智能中尋找突破口。在許多探索性研究中，個性化推薦服務作為一種嶄新的智能信息服務方式，應用前景廣泛，十分引人注目。與搜索引擎不同，推薦系統(tǒng)并不需要用戶提供明確的需求，而是通過

3、分析用戶的歷史行為，根據(jù)用戶的行為主動推薦能夠滿足他們興趣和需求的信息。因此，對于用戶而言推薦系統(tǒng)和搜索引擎是兩個互補的工具。搜索引擎滿足有明確目的的用戶需求，而推薦系統(tǒng)能夠幫助用戶發(fā)現(xiàn)感興趣的內(nèi)容。因此，在電子商務領域中推薦技術可以起到以下作用：第一，幫助用戶發(fā)現(xiàn)其感興趣的物品，節(jié)省用戶時間、提升用戶體驗；第二，提高用戶對電子商務網(wǎng)站的忠誠度，如果推薦系統(tǒng)能夠準確地發(fā)現(xiàn)用戶的興趣點，并將合適的資源推薦給用戶，用戶就會對該電子商務網(wǎng)站產(chǎn)生依賴，從而建立穩(wěn)定的企業(yè)忠實顧客群，提高用戶滿意度。本案例研究的對象是泰迪智能科技有限公司的泰迪杯競賽網(wǎng)站，泰迪科技是一家專業(yè)從

4、事大數(shù)據(jù)挖掘應用研發(fā)、咨詢和培訓服務的高科技企業(yè)。泰迪杯競賽網(wǎng)致力于為用戶提供豐富的泰迪杯競賽信息、數(shù)據(jù)挖掘培訓咨詢服務，并為參賽者提供了往屆優(yōu)秀作品作為參考，為高校提供了豐富的教學資源，如：案例教程、教學視頻、教學書籍、建模工具等。隨著網(wǎng)站量增大，其數(shù)據(jù)信息量也在大幅度增長。用戶在面對大量信息時無法及時從中獲取自己需要的信息，對信息的使用效率越來越低。這種瀏覽大量無關信息的過程，造成了用戶需要花費大量的時間才能找到自己需要的信息。為了能更好地滿足用戶需求，依據(jù)其網(wǎng)站海量的數(shù)據(jù)，研究用戶的興趣偏好，分析用戶的需求和行為，發(fā)現(xiàn)用戶的興趣點。引導用戶發(fā)現(xiàn)自己的信息需求

5、，將網(wǎng)頁精準地推薦給所需用戶，幫助用戶發(fā)現(xiàn)他們感興趣但很難發(fā)現(xiàn)的網(wǎng)頁信息。為了能夠更好的滿足用戶需求，依據(jù)其網(wǎng)站海量的數(shù)據(jù)，研究用戶的興趣偏好，分析用戶的需求和行為，發(fā)現(xiàn)用戶的興趣點，從而引導用戶發(fā)現(xiàn)自己的信息需求。行為記錄原始數(shù)據(jù)：利用read.csv函數(shù)把原始數(shù)據(jù)導入R語言RStudio中，整理數(shù)據(jù)進行下一步的處理。當用戶訪問網(wǎng)站頁面時，系統(tǒng)會記錄用戶訪問網(wǎng)站的日志，其訪問的數(shù)據(jù)記錄了訪問序號、內(nèi)容id、訪問內(nèi)容、用戶id、ip等多項屬性的記錄，并針對其中的各個屬性進行說明，如表2-2所示。表2-2訪問記錄屬性表屬性名稱屬性說明屬性名稱屬性說明id訪問序號br

6、owser_type瀏覽器類型content_id內(nèi)容idbrowser_version瀏覽器版本page_path網(wǎng)址platform_type平臺類型username用戶名稱platform_series平臺系列userid用戶idplatform_version平臺版本sessionid一次瀏覽標識data_time訪問時間ipip地址mobile_type手機類型country國家agent代理商area區(qū)域uniqueVisitorID唯一瀏覽ID依據(jù)所提供的原始數(shù)據(jù)，確定挖掘目標如下：挖掘目標：1、借助大量用戶的訪問記錄，發(fā)現(xiàn)用戶的訪問行為習慣，對不同

7、需求的用戶進行相關服務頁面的推薦；2、根據(jù)用戶訪問內(nèi)容、訪問次數(shù)等屬性特征，深入了解用戶對訪問網(wǎng)站的行為和目的及關心的內(nèi)容二、推薦系統(tǒng)架構總體流程主要步驟：1.從系統(tǒng)中獲取用戶訪問網(wǎng)站的原始記錄。2.以用戶訪問jhtml后綴的網(wǎng)頁為關鍵條件，對數(shù)據(jù)進行處理。3.對數(shù)據(jù)進行多維度分析，用戶訪問時間，用戶訪問內(nèi)容，流失用戶分析以及用戶分群等分析。4.對數(shù)據(jù)進行預處理，包含數(shù)據(jù)去重，數(shù)據(jù)刪選，數(shù)據(jù)分類等處理過程。5.對比多種推薦算法進行推薦，通過模型評價，得到比較好的智能推薦模型。通過模型對樣本數(shù)據(jù)進行預測，獲得推薦結果數(shù)據(jù)抽?。?.網(wǎng)頁類型分析圖一結論：從去掉.jht

8、ml的網(wǎng)址

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 21



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

R語言數(shù)據(jù)挖掘.doc

R語言數(shù)據(jù)挖掘.doc

相關文章

相關標簽