微博客數(shù)據(jù)的獲取與分析方法研究

微博客數(shù)據(jù)的獲取與分析方法研究

ID:34163676

大?。?.06 MB

頁數(shù):56頁

時間:2019-03-04

微博客數(shù)據(jù)的獲取與分析方法研究_第1頁
微博客數(shù)據(jù)的獲取與分析方法研究_第2頁
微博客數(shù)據(jù)的獲取與分析方法研究_第3頁
微博客數(shù)據(jù)的獲取與分析方法研究_第4頁
微博客數(shù)據(jù)的獲取與分析方法研究_第5頁
資源描述:

《微博客數(shù)據(jù)的獲取與分析方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、些直至塹厶生蛆±。羔位絲室主奎蝤噩中文摘要摘要:微博客是繼博客后迅速發(fā)展起來的一種新的社交網(wǎng)絡形式,在信息傳媒領(lǐng)域形成了很大的影響力。對于傳統(tǒng)的社交網(wǎng)絡形式,數(shù)據(jù)的獲取與分析技術(shù)己開趨成熟,但對于微博網(wǎng)絡數(shù)據(jù)的獲取及微博網(wǎng)絡特性的研究,還不夠完善。本文研究了微博的特點及作用,微博數(shù)據(jù)獲取的兩種技術(shù).以新浪微博為例,設計并實現(xiàn)了微博數(shù)_I晤獲取與分析系統(tǒng),仿真并分析了微博網(wǎng)絡的網(wǎng)絡特性。本文主要的工作目的是在獲取微博數(shù)據(jù)的基礎(chǔ)上,分析微博數(shù)掘,由此得出微博網(wǎng)絡的特性??h體的工作如下:1、研究了使用網(wǎng)絡頁面爬蟲獲取數(shù)據(jù)的相關(guān)技術(shù),包括通用網(wǎng)絡爬蟲,聚

2、焦網(wǎng)絡爬蟲,網(wǎng)頁預處理,文本分婁等的基本原理和工作流程。2、深入研究了利用微博系統(tǒng)的SDK獲取數(shù)據(jù)的工作流程,該技術(shù)通過調(diào)用微博平臺提供的API柬獲取用戶數(shù)據(jù),調(diào)用API需通過用戶身份的鑒權(quán),目前主要川到的是OAuth鑒權(quán),該方法步驟簡單,抓取數(shù)據(jù)的準確度和效率高,本文應用該方法獲取微博數(shù)據(jù)。3,從簡化認證步驟,提高獲取效率,避免重復爬取等方面考慮,對SDK程序進行了改進,經(jīng)多次實驗汪明經(jīng)過改進的程序能長時有效的獲取微博數(shù)據(jù),此方法扶駛的微博數(shù)據(jù)作為研究微博網(wǎng)絡特性的數(shù)據(jù)集。4、毆計了微博數(shù)據(jù)獲取神1分析系統(tǒng)的總體框架,系統(tǒng)的數(shù)據(jù)庫,功能模塊和界

3、面,實現(xiàn)了微博的數(shù)據(jù)獲取和分析的基本功能,借助干醵系統(tǒng)可對微博網(wǎng)絡做更深入的研究。5,塒微博的網(wǎng)絡拓撲,節(jié)點的入度分枷,Ⅲ度分m等進行了分析,通過分析得出微博網(wǎng)絡具有小世界特性,七杯度和高聚類特性。關(guān)鍵詞:微博;網(wǎng)絡爬蟲;無標度刪絡;度分如分類號:TP39301址_一玉L蔓三一』盟—厶—堂—熊—±—生位詮塞——』L旦—£_]1'衛(wèi)—△—UABSTRACTABSTRACT:MierobloggingisquicklydevefopedintoanewformofsocialnetworkfollowingblogIthasgreatinfluenc

4、eonthefieldofinformafionmediaForthetraditionalformofsocialnetwork,dataacquisitionandanalysistechnologyhasmatured,butthemicrobloggingnetworkdataacquisitionandtheresearchofmicrobloggingnetworkcharacteristicsisstillnotperfectThispaperstudiesthecharacteristicsandtheeffectofmicrob

5、fogging,andtwomicrobloggingdataacquisitiontechniquesUsingSinamicrob!oggingforexample,microbloggingdataacquisitionandanalysissystemwasdesignedandachieved,networkcharacteristicsofmicrobloggingweresimulatedandanalyzedThemainpurposeistoanalysisthecharacteristicofmicrobloggingnetw

6、orkaccordingtothedataobtainedinmicrohfoggingSpecificworkisasfollows:I、Studyonthetechnologiesofgettingdatausingwebpagecrawlenincludingthebasicprinciplesandworkfiowofgeneralwebcrawlegfocusedcrawler,webpre-processing,textclassificationetc2、Studyontheworkflowofgettingthedatausing

7、microbfoggingsystemSDK,thistechnologygetstheuserdatabycallingtheAPIprovidedbythemicrobloggingplatform,andcallingtheAPIrequirestheuseridentityauthenticationCurrently,themaiorauthenticationisOAuthwhichisdescribedindetailinthispaper,andthismethodhassimplestepsandi'tcangetmicrobl

8、oggingdataaccuratelyandefficiently.3、TheSDKprogramhasbccninrprovedby

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。