基于hadoop的文本聚類并行化研究

ID：35057001

大?。?.81 MB

頁數(shù)：71頁

時(shí)間：2019-03-17

資源描述：

《基于hadoop的文本聚類并行化研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、寺辦指之乂凈：雜Ｓｏｕ化ＣｈｉｎａＵｎｉｖｅｒｓｉｔｏｆＴｅｃｈｎｏｌｏｙｇｙ碩±學(xué)位論文Ｖ，ｖ＇苦乃京奔，其ｖ．，＇？：‘．’：．．巧．舜品；：帶馬；瓦：／＼，？、，〇，？－ｉ‘Ｉ’－－、’妾；辟巧護(hù)達(dá)■．一；？、．．：ｉ＿．基于Ｈａｄｏｏｐ的文本聚類并巧研究？．．．．．．亡搔詳婚臀：蟲－；晃巧＾某丐錯(cuò)請(qǐng)／與告．遺茲弘ｒ；，１．？？＇＇－＇？■■＇．，１Ｌ？，，；％■？Ｃ．：．＇－．■．山，＇．媒縣寶累瑤蕾；；

2、靖裝鑛繫黨霞ｒ＇＇在冉禪畜竄驟寫留巧記麵雞Ｓｉ．強(qiáng)；靖；．．Ｉ＇．＇．、．．．Ｉ?wèi)羝墸剩墸保崳姟T：帝賀巧礦評(píng)巧恥．．．．？．一公女點(diǎn)視妒、：試詔，：髮？扣單欄詩乾韓巧■：．巧．巧：子游學(xué)請(qǐng)訂．．．．．．作者姓名崔富明．／學(xué)位類別通信與信息系統(tǒng)指導(dǎo)教師陸切勤教授所在學(xué)院電子與信息學(xué)院論文提交日期２０１６年４月．．皆：心盧己ｙ站；＇■＊＊＊－＇；：Ｉ■■０．．＂．．■■．；＇■■．ResearchonParalle

3、lizationofTextClusteringBasedonHadoopADissertationSubmittedfortheDegreeofMasterCandidate：CuiFumingSupervisor：Prof.LuYiqinSouthChinaUniversityofTechnologyGuangzhou，China分類號(hào)：TP391學(xué)校代號(hào)：10561學(xué)號(hào)：201320108722華南理工大學(xué)碩士學(xué)位論文基于Hadoop的文本聚類并行化研究作者姓名：崔富明指導(dǎo)教師姓名、職稱：陸以勤教授申請(qǐng)學(xué)位級(jí)別：工學(xué)碩士學(xué)科專業(yè)名稱：通信與信息系統(tǒng)研究方向：現(xiàn)代通信理論與技術(shù)論

4、文提交日期：2016年04月20日論文答辯日期：2016年06月08日學(xué)位授予單位：華南理工大學(xué)學(xué)位授予日期：年月日答辯委員會(huì)成員：主席：委員：華南理工大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明：所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所。取得的研究成果除了文中特別加Ｗ標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體。，均已在文中Ｗ明確方式標(biāo)明本人完全意識(shí)到本聲明的法律后果由本人承擔(dān)。／立作者簽名：曰期年月曰學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定，艮Ｐ

5、：研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬華南理工大學(xué)。學(xué)校有權(quán)保存并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版，允許學(xué)位論文被查閱（除在保密期內(nèi)的保密論文外）；學(xué)校可公布學(xué)位論文的全部或部分內(nèi)容、縮印或其它復(fù)制手段保存、匯編學(xué)位，可Ｗ允許采用影印一論文。本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相致。本學(xué)位論文屬于：密。，在年解密后適用本授權(quán)書口＾保密，同意在校園網(wǎng)上發(fā)布，供校內(nèi)師生和與學(xué)校有共享協(xié)議的單位瀏覽；同意將本人學(xué)位論文提交中國學(xué)術(shù)期刊（光盤版）電子雜志社全文出版和編入ＣＮＫＩ《中國知識(shí)資源總庫》，傳播學(xué)位論文的全部或部分內(nèi)容

6、。＂＂Ｖ（請(qǐng)?jiān)冢咨舷鄳?yīng)方框內(nèi)打）＾兔巧么作者簽名：節(jié)曰期：主指導(dǎo)教師簽名：＾＾參日期＞。乂．６．（作聯(lián)者聯(lián)系電話：系地址（含郵編）：摘要文本是互聯(lián)網(wǎng)上最主要的信息載體之一，其規(guī)模隨著網(wǎng)絡(luò)的快速發(fā)展變得越來越龐大，快速有效地從海量的文本中獲取有價(jià)值信息具有重要的現(xiàn)實(shí)意義。文本聚類作為一種重要的文本挖掘技術(shù)，能自動(dòng)發(fā)現(xiàn)文本中隱藏的深層知識(shí)，為文本信息的獲取提供了有效方法。但是基于傳統(tǒng)串行模式的文本聚類無論是在效率還是在可擴(kuò)展性上都無法滿足大規(guī)模文本的處理需求，云計(jì)算技術(shù)的發(fā)展為其提供了有效的解決方法。Hadoop作為目前應(yīng)用最廣泛的分布式云計(jì)算平臺(tái)，能夠?qū)Υ?/p>

7、規(guī)模數(shù)據(jù)集進(jìn)行高效、可靠、可伸縮的分布式處理，它利用HDFS來存儲(chǔ)數(shù)據(jù)，利用MapReduce來對(duì)數(shù)據(jù)進(jìn)行并行化處理。Hadoop使得用戶可以在普通的計(jì)算機(jī)上搭建起性價(jià)比很高的計(jì)算集群，同時(shí)使得并行程序的設(shè)計(jì)相比傳統(tǒng)的并行程序更簡單且具有良好的可擴(kuò)展性。為了提高文本聚類處理大規(guī)模文本數(shù)據(jù)的能力，本文將其與Hadoop云計(jì)算平臺(tái)結(jié)合，實(shí)現(xiàn)了分布式的并行文本聚類。本文分析和研究了文本聚類及Hadoop云計(jì)算平臺(tái)的相關(guān)技術(shù)，根據(jù)文本聚類的流程及特點(diǎn)，從文本預(yù)處理

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 71



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于hadoop的文本聚類并行化研究

基于hadoop的文本聚類并行化研究

相關(guān)文章

相關(guān)標(biāo)簽