資源描述:
《R語言數(shù)據(jù)挖掘.doc》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、R語言數(shù)據(jù)挖掘論文題目:數(shù)據(jù)挖掘實戰(zhàn)之網(wǎng)站智能推薦服務指導老師:張敏小組成員:周犬義王寧數(shù)據(jù)挖掘實戰(zhàn)之網(wǎng)站智能推薦服務一、背景與挖掘目標伴隨著計算機技術、通信技術的日益成熟和廣泛應用,互聯(lián)網(wǎng)自90年代初開始得到迅猛發(fā)展,至今雖然只有短短幾十年的時間,但它已經(jīng)發(fā)展成為現(xiàn)今信息時代人類生活中不可或缺的重要組成部分,并成為全球范圍內(nèi)傳播信息的主要渠道。隨之而來的是互聯(lián)網(wǎng)上信息資源越來越豐富,人們要在浩如煙海的“混亂的”互聯(lián)網(wǎng)信息世界中找到自己真正感興趣信息卻存在很大的困難,具體表現(xiàn)在:用戶不知道如何貼切表達真正想要的網(wǎng)上資源的需求,也不知道如何去更準確有效地尋找,即所謂
2、的“信息迷失”問題;和對收到的或已經(jīng)下載的大量無關的信息難以消化,即所謂的“信息過載”問題。雖然我們可以借助于搜索引擎來檢索Web上的信息,但仍不能滿足不同背景、不同目的和不同時期的查詢要求,因為大多數(shù)搜索引擎缺少主動性,沒有考慮用戶的興趣偏好和用戶的不同,無法有效地解決信息過載和信息迷失的問題。為了適應用戶不斷增長的信息需求,有效地解決信息過載和信息迷失給人們帶來的種種問題,研究人員紛紛從人工智能中尋找突破口。在許多探索性研究中,個性化推薦服務作為一種嶄新的智能信息服務方式,應用前景廣泛,十分引人注目。與搜索引擎不同,推薦系統(tǒng)并不需要用戶提供明確的需求,而是通過
3、分析用戶的歷史行為,根據(jù)用戶的行為主動推薦能夠滿足他們興趣和需求的信息。因此,對于用戶而言推薦系統(tǒng)和搜索引擎是兩個互補的工具。搜索引擎滿足有明確目的的用戶需求,而推薦系統(tǒng)能夠幫助用戶發(fā)現(xiàn)感興趣的內(nèi)容。因此,在電子商務領域中推薦技術可以起到以下作用:第一,幫助用戶發(fā)現(xiàn)其感興趣的物品,節(jié)省用戶時間、提升用戶體驗;第二,提高用戶對電子商務網(wǎng)站的忠誠度,如果推薦系統(tǒng)能夠準確地發(fā)現(xiàn)用戶的興趣點,并將合適的資源推薦給用戶,用戶就會對該電子商務網(wǎng)站產(chǎn)生依賴,從而建立穩(wěn)定的企業(yè)忠實顧客群,提高用戶滿意度。本案例研究的對象是泰迪智能科技有限公司的泰迪杯競賽網(wǎng)站,泰迪科技是一家專業(yè)從
4、事大數(shù)據(jù)挖掘應用研發(fā)、咨詢和培訓服務的高科技企業(yè)。泰迪杯競賽網(wǎng)致力于為用戶提供豐富的泰迪杯競賽信息、數(shù)據(jù)挖掘培訓咨詢服務,并為參賽者提供了往屆優(yōu)秀作品作為參考,為高校提供了豐富的教學資源,如:案例教程、教學視頻、教學書籍、建模工具等。隨著網(wǎng)站量增大,其數(shù)據(jù)信息量也在大幅度增長。用戶在面對大量信息時無法及時從中獲取自己需要的信息,對信息的使用效率越來越低。這種瀏覽大量無關信息的過程,造成了用戶需要花費大量的時間才能找到自己需要的信息。為了能更好地滿足用戶需求,依據(jù)其網(wǎng)站海量的數(shù)據(jù),研究用戶的興趣偏好,分析用戶的需求和行為,發(fā)現(xiàn)用戶的興趣點。引導用戶發(fā)現(xiàn)自己的信息需求
5、,將網(wǎng)頁精準地推薦給所需用戶,幫助用戶發(fā)現(xiàn)他們感興趣但很難發(fā)現(xiàn)的網(wǎng)頁信息。為了能夠更好的滿足用戶需求,依據(jù)其網(wǎng)站海量的數(shù)據(jù),研究用戶的興趣偏好,分析用戶的需求和行為,發(fā)現(xiàn)用戶的興趣點,從而引導用戶發(fā)現(xiàn)自己的信息需求。行為記錄原始數(shù)據(jù):利用read.csv函數(shù)把原始數(shù)據(jù)導入R語言RStudio中,整理數(shù)據(jù)進行下一步的處理。當用戶訪問網(wǎng)站頁面時,系統(tǒng)會記錄用戶訪問網(wǎng)站的日志,其訪問的數(shù)據(jù)記錄了訪問序號、內(nèi)容id、訪問內(nèi)容、用戶id、ip等多項屬性的記錄,并針對其中的各個屬性進行說明,如表2-2所示。表2-2訪問記錄屬性表屬性名稱屬性說明屬性名稱屬性說明id訪問序號br
6、owser_type瀏覽器類型content_id內(nèi)容idbrowser_version瀏覽器版本page_path網(wǎng)址platform_type平臺類型username用戶名稱platform_series平臺系列userid用戶idplatform_version平臺版本sessionid一次瀏覽標識data_time訪問時間ipip地址mobile_type手機類型country國家agent代理商area區(qū)域uniqueVisitorID唯一瀏覽ID依據(jù)所提供的原始數(shù)據(jù),確定挖掘目標如下:挖掘目標:1、借助大量用戶的訪問記錄,發(fā)現(xiàn)用戶的訪問行為習慣,對不同
7、需求的用戶進行相關服務頁面的推薦;2、根據(jù)用戶訪問內(nèi)容、訪問次數(shù)等屬性特征,深入了解用戶對訪問網(wǎng)站的行為和目的及關心的內(nèi)容二、推薦系統(tǒng)架構總體流程主要步驟:1.從系統(tǒng)中獲取用戶訪問網(wǎng)站的原始記錄。2.以用戶訪問jhtml后綴的網(wǎng)頁為關鍵條件,對數(shù)據(jù)進行處理。3.對數(shù)據(jù)進行多維度分析,用戶訪問時間,用戶訪問內(nèi)容,流失用戶分析以及用戶分群等分析。4.對數(shù)據(jù)進行預處理,包含數(shù)據(jù)去重,數(shù)據(jù)刪選,數(shù)據(jù)分類等處理過程。5.對比多種推薦算法進行推薦,通過模型評價,得到比較好的智能推薦模型。通過模型對樣本數(shù)據(jù)進行預測,獲得推薦結果數(shù)據(jù)抽?。?.網(wǎng)頁類型分析圖一結論:從去掉.jht
8、ml的網(wǎng)址