資源描述:
《基于hadoop的文本聚類并行化研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、寺辦指之乂凈:雜Sou化ChinaUniversitofTechnoloygy碩±學(xué)位論文V,v'苦乃京奔,其v.,'?:‘.’:..巧.舜品;:帶馬;瓦:/\,?、,〇,?-i‘I’--、’妾;辟巧護(hù)達(dá)■.一;?、..:i_.基于Hadoop的文本聚類并巧研究?......亡搔詳婚臀:蟲-;晃巧^某丐錯(cuò)請(qǐng)/與告.遺茲弘r;,1.??''-'?■■'.,1L?,,;%■?C.:.'-.■.山,'.媒縣寶累瑤蕾;;
2、靖裝鑛繫黨霞r''在冉禪畜竄驟寫留巧記麵雞Si.強(qiáng);靖;..I'.'.、...I?wèi)羝墸剩墸保崳姟T:帝賀巧礦評(píng)巧恥....?.一公女點(diǎn)視妒、:試詔,:髮?扣單欄詩乾韓巧■:.巧.巧:子游學(xué)請(qǐng)訂......作者姓名崔富明./學(xué)位類別通信與信息系統(tǒng)指導(dǎo)教師陸切勤教授所在學(xué)院電子與信息學(xué)院論文提交日期2016年4月..皆:心盧己y站;'■***-';:I■■0.."..■■.;'■■.ResearchonParalle
3、lizationofTextClusteringBasedonHadoopADissertationSubmittedfortheDegreeofMasterCandidate:CuiFumingSupervisor:Prof.LuYiqinSouthChinaUniversityofTechnologyGuangzhou,China分類號(hào):TP391學(xué)校代號(hào):10561學(xué)號(hào):201320108722華南理工大學(xué)碩士學(xué)位論文基于Hadoop的文本聚類并行化研究作者姓名:崔富明指導(dǎo)教師姓名、職稱:陸以勤教授申請(qǐng)學(xué)位級(jí)別:工學(xué)碩士學(xué)科專業(yè)名稱:通信與信息系統(tǒng)研究方向:現(xiàn)代通信理論與技術(shù)論
4、文提交日期:2016年04月20日論文答辯日期:2016年06月08日學(xué)位授予單位:華南理工大學(xué)學(xué)位授予日期:年月日答辯委員會(huì)成員:主席:委員:華南理工大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所。取得的研究成果除了文中特別加W標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體。,均已在文中W明確方式標(biāo)明本人完全意識(shí)到本聲明的法律后果由本人承擔(dān)。/立作者簽名:曰期年月曰學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,艮P
5、:研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬華南理工大學(xué)。學(xué)校有權(quán)保存并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許學(xué)位論文被查閱(除在保密期內(nèi)的保密論文外);學(xué)校可公布學(xué)位論文的全部或部分內(nèi)容、縮印或其它復(fù)制手段保存、匯編學(xué)位,可W允許采用影印一論文。本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相致。本學(xué)位論文屬于:密。,在年解密后適用本授權(quán)書口^保密,同意在校園網(wǎng)上發(fā)布,供校內(nèi)師生和與學(xué)校有共享協(xié)議的單位瀏覽;同意將本人學(xué)位論文提交中國學(xué)術(shù)期刊(光盤版)電子雜志社全文出版和編入CNKI《中國知識(shí)資源總庫》,傳播學(xué)位論文的全部或部分內(nèi)容
6、。""V(請(qǐng)?jiān)冢咨舷鄳?yīng)方框內(nèi)打)^兔巧么作者簽名:節(jié)曰期:主指導(dǎo)教師簽名:^^參日期>。乂.6.(作聯(lián)者聯(lián)系電話:系地址(含郵編):摘要文本是互聯(lián)網(wǎng)上最主要的信息載體之一,其規(guī)模隨著網(wǎng)絡(luò)的快速發(fā)展變得越來越龐大,快速有效地從海量的文本中獲取有價(jià)值信息具有重要的現(xiàn)實(shí)意義。文本聚類作為一種重要的文本挖掘技術(shù),能自動(dòng)發(fā)現(xiàn)文本中隱藏的深層知識(shí),為文本信息的獲取提供了有效方法。但是基于傳統(tǒng)串行模式的文本聚類無論是在效率還是在可擴(kuò)展性上都無法滿足大規(guī)模文本的處理需求,云計(jì)算技術(shù)的發(fā)展為其提供了有效的解決方法。Hadoop作為目前應(yīng)用最廣泛的分布式云計(jì)算平臺(tái),能夠?qū)Υ?/p>
7、規(guī)模數(shù)據(jù)集進(jìn)行高效、可靠、可伸縮的分布式處理,它利用HDFS來存儲(chǔ)數(shù)據(jù),利用MapReduce來對(duì)數(shù)據(jù)進(jìn)行并行化處理。Hadoop使得用戶可以在普通的計(jì)算機(jī)上搭建起性價(jià)比很高的計(jì)算集群,同時(shí)使得并行程序的設(shè)計(jì)相比傳統(tǒng)的并行程序更簡單且具有良好的可擴(kuò)展性。為了提高文本聚類處理大規(guī)模文本數(shù)據(jù)的能力,本文將其與Hadoop云計(jì)算平臺(tái)結(jié)合,實(shí)現(xiàn)了分布式的并行文本聚類。本文分析和研究了文本聚類及Hadoop云計(jì)算平臺(tái)的相關(guān)技術(shù),根據(jù)文本聚類的流程及特點(diǎn),從文本預(yù)處理