資源描述:
《微博客數(shù)據(jù)的獲取與分析方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、些直至塹厶生蛆±。羔位絲室主奎蝤噩中文摘要摘要:微博客是繼博客后迅速發(fā)展起來的一種新的社交網(wǎng)絡形式,在信息傳媒領(lǐng)域形成了很大的影響力。對于傳統(tǒng)的社交網(wǎng)絡形式,數(shù)據(jù)的獲取與分析技術(shù)己開趨成熟,但對于微博網(wǎng)絡數(shù)據(jù)的獲取及微博網(wǎng)絡特性的研究,還不夠完善。本文研究了微博的特點及作用,微博數(shù)據(jù)獲取的兩種技術(shù).以新浪微博為例,設計并實現(xiàn)了微博數(shù)_I晤獲取與分析系統(tǒng),仿真并分析了微博網(wǎng)絡的網(wǎng)絡特性。本文主要的工作目的是在獲取微博數(shù)據(jù)的基礎(chǔ)上,分析微博數(shù)掘,由此得出微博網(wǎng)絡的特性??h體的工作如下:1、研究了使用網(wǎng)絡頁面爬蟲獲取數(shù)據(jù)的相關(guān)技術(shù),包括通用網(wǎng)絡爬蟲,聚
2、焦網(wǎng)絡爬蟲,網(wǎng)頁預處理,文本分婁等的基本原理和工作流程。2、深入研究了利用微博系統(tǒng)的SDK獲取數(shù)據(jù)的工作流程,該技術(shù)通過調(diào)用微博平臺提供的API柬獲取用戶數(shù)據(jù),調(diào)用API需通過用戶身份的鑒權(quán),目前主要川到的是OAuth鑒權(quán),該方法步驟簡單,抓取數(shù)據(jù)的準確度和效率高,本文應用該方法獲取微博數(shù)據(jù)。3,從簡化認證步驟,提高獲取效率,避免重復爬取等方面考慮,對SDK程序進行了改進,經(jīng)多次實驗汪明經(jīng)過改進的程序能長時有效的獲取微博數(shù)據(jù),此方法扶駛的微博數(shù)據(jù)作為研究微博網(wǎng)絡特性的數(shù)據(jù)集。4、毆計了微博數(shù)據(jù)獲取神1分析系統(tǒng)的總體框架,系統(tǒng)的數(shù)據(jù)庫,功能模塊和界
3、面,實現(xiàn)了微博的數(shù)據(jù)獲取和分析的基本功能,借助干醵系統(tǒng)可對微博網(wǎng)絡做更深入的研究。5,塒微博的網(wǎng)絡拓撲,節(jié)點的入度分枷,Ⅲ度分m等進行了分析,通過分析得出微博網(wǎng)絡具有小世界特性,七杯度和高聚類特性。關(guān)鍵詞:微博;網(wǎng)絡爬蟲;無標度刪絡;度分如分類號:TP39301址_一玉L蔓三一』盟—厶—堂—熊—±—生位詮塞——』L旦—£_]1'衛(wèi)—△—UABSTRACTABSTRACT:MierobloggingisquicklydevefopedintoanewformofsocialnetworkfollowingblogIthasgreatinfluenc
4、eonthefieldofinformafionmediaForthetraditionalformofsocialnetwork,dataacquisitionandanalysistechnologyhasmatured,butthemicrobloggingnetworkdataacquisitionandtheresearchofmicrobloggingnetworkcharacteristicsisstillnotperfectThispaperstudiesthecharacteristicsandtheeffectofmicrob
5、fogging,andtwomicrobloggingdataacquisitiontechniquesUsingSinamicrob!oggingforexample,microbloggingdataacquisitionandanalysissystemwasdesignedandachieved,networkcharacteristicsofmicrobloggingweresimulatedandanalyzedThemainpurposeistoanalysisthecharacteristicofmicrobloggingnetw
6、orkaccordingtothedataobtainedinmicrohfoggingSpecificworkisasfollows:I、Studyonthetechnologiesofgettingdatausingwebpagecrawlenincludingthebasicprinciplesandworkfiowofgeneralwebcrawlegfocusedcrawler,webpre-processing,textclassificationetc2、Studyontheworkflowofgettingthedatausing
7、microbfoggingsystemSDK,thistechnologygetstheuserdatabycallingtheAPIprovidedbythemicrobloggingplatform,andcallingtheAPIrequirestheuseridentityauthenticationCurrently,themaiorauthenticationisOAuthwhichisdescribedindetailinthispaper,andthismethodhassimplestepsandi'tcangetmicrobl
8、oggingdataaccuratelyandefficiently.3、TheSDKprogramhasbccninrprovedby