基于hadoop的文本聚類并行化研究

基于hadoop的文本聚類并行化研究

ID:35057001

大?。?.81 MB

頁數(shù):71頁

時(shí)間:2019-03-17

基于hadoop的文本聚類并行化研究_第1頁
基于hadoop的文本聚類并行化研究_第2頁
基于hadoop的文本聚類并行化研究_第3頁
基于hadoop的文本聚類并行化研究_第4頁
基于hadoop的文本聚類并行化研究_第5頁
資源描述:

《基于hadoop的文本聚類并行化研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、寺辦指之乂凈:雜Sou化ChinaUniversitofTechnoloygy碩±學(xué)位論文V,v'苦乃京奔,其v.,'?:‘.’:..巧.舜品;:帶馬;瓦:/\,?、,〇,?-i‘I’--、’妾;辟巧護(hù)達(dá)■.一;?、..:i_.基于Hadoop的文本聚類并巧研究?......亡搔詳婚臀:蟲-;晃巧^某丐錯(cuò)請(qǐng)/與告.遺茲弘r;,1.??''-'?■■'.,1L?,,;%■?C.:.'-.■.山,'.媒縣寶累瑤蕾;;

2、靖裝鑛繫黨霞r''在冉禪畜竄驟寫留巧記麵雞Si.強(qiáng);靖;..I'.'.、...I?wèi)羝墸剩墸保崳姟T:帝賀巧礦評(píng)巧恥....?.一公女點(diǎn)視妒、:試詔,:髮?扣單欄詩乾韓巧■:.巧.巧:子游學(xué)請(qǐng)訂......作者姓名崔富明./學(xué)位類別通信與信息系統(tǒng)指導(dǎo)教師陸切勤教授所在學(xué)院電子與信息學(xué)院論文提交日期2016年4月..皆:心盧己y站;'■***-';:I■■0.."..■■.;'■■.ResearchonParalle

3、lizationofTextClusteringBasedonHadoopADissertationSubmittedfortheDegreeofMasterCandidate:CuiFumingSupervisor:Prof.LuYiqinSouthChinaUniversityofTechnologyGuangzhou,China分類號(hào):TP391學(xué)校代號(hào):10561學(xué)號(hào):201320108722華南理工大學(xué)碩士學(xué)位論文基于Hadoop的文本聚類并行化研究作者姓名:崔富明指導(dǎo)教師姓名、職稱:陸以勤教授申請(qǐng)學(xué)位級(jí)別:工學(xué)碩士學(xué)科專業(yè)名稱:通信與信息系統(tǒng)研究方向:現(xiàn)代通信理論與技術(shù)論

4、文提交日期:2016年04月20日論文答辯日期:2016年06月08日學(xué)位授予單位:華南理工大學(xué)學(xué)位授予日期:年月日答辯委員會(huì)成員:主席:委員:華南理工大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所。取得的研究成果除了文中特別加W標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體。,均已在文中W明確方式標(biāo)明本人完全意識(shí)到本聲明的法律后果由本人承擔(dān)。/立作者簽名:曰期年月曰學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,艮P

5、:研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬華南理工大學(xué)。學(xué)校有權(quán)保存并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許學(xué)位論文被查閱(除在保密期內(nèi)的保密論文外);學(xué)校可公布學(xué)位論文的全部或部分內(nèi)容、縮印或其它復(fù)制手段保存、匯編學(xué)位,可W允許采用影印一論文。本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相致。本學(xué)位論文屬于:密。,在年解密后適用本授權(quán)書口^保密,同意在校園網(wǎng)上發(fā)布,供校內(nèi)師生和與學(xué)校有共享協(xié)議的單位瀏覽;同意將本人學(xué)位論文提交中國學(xué)術(shù)期刊(光盤版)電子雜志社全文出版和編入CNKI《中國知識(shí)資源總庫》,傳播學(xué)位論文的全部或部分內(nèi)容

6、。""V(請(qǐng)?jiān)冢咨舷鄳?yīng)方框內(nèi)打)^兔巧么作者簽名:節(jié)曰期:主指導(dǎo)教師簽名:^^參日期>。乂.6.(作聯(lián)者聯(lián)系電話:系地址(含郵編):摘要文本是互聯(lián)網(wǎng)上最主要的信息載體之一,其規(guī)模隨著網(wǎng)絡(luò)的快速發(fā)展變得越來越龐大,快速有效地從海量的文本中獲取有價(jià)值信息具有重要的現(xiàn)實(shí)意義。文本聚類作為一種重要的文本挖掘技術(shù),能自動(dòng)發(fā)現(xiàn)文本中隱藏的深層知識(shí),為文本信息的獲取提供了有效方法。但是基于傳統(tǒng)串行模式的文本聚類無論是在效率還是在可擴(kuò)展性上都無法滿足大規(guī)模文本的處理需求,云計(jì)算技術(shù)的發(fā)展為其提供了有效的解決方法。Hadoop作為目前應(yīng)用最廣泛的分布式云計(jì)算平臺(tái),能夠?qū)Υ?/p>

7、規(guī)模數(shù)據(jù)集進(jìn)行高效、可靠、可伸縮的分布式處理,它利用HDFS來存儲(chǔ)數(shù)據(jù),利用MapReduce來對(duì)數(shù)據(jù)進(jìn)行并行化處理。Hadoop使得用戶可以在普通的計(jì)算機(jī)上搭建起性價(jià)比很高的計(jì)算集群,同時(shí)使得并行程序的設(shè)計(jì)相比傳統(tǒng)的并行程序更簡單且具有良好的可擴(kuò)展性。為了提高文本聚類處理大規(guī)模文本數(shù)據(jù)的能力,本文將其與Hadoop云計(jì)算平臺(tái)結(jié)合,實(shí)現(xiàn)了分布式的并行文本聚類。本文分析和研究了文本聚類及Hadoop云計(jì)算平臺(tái)的相關(guān)技術(shù),根據(jù)文本聚類的流程及特點(diǎn),從文本預(yù)處理

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。