并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用

ID：35076259

大小：2.76 MB

頁(yè)數(shù)：67頁(yè)

時(shí)間：2019-03-17

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用_第1頁(yè)

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用_第2頁(yè)

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用_第3頁(yè)

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用_第4頁(yè)

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用_第5頁(yè)

資源描述：

《并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用》由會(huì)員上傳分享，免費(fèi)在線(xiàn)閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、分類(lèi)號(hào)：密級(jí)：UDC：學(xué)號(hào)：406130913132南昌大學(xué)碩士研究生學(xué)位論文并行LDA、聚類(lèi)算法的研究及應(yīng)用TheResearchandApplicationofParallelLatentDirichletAllocationandClusteringAlgorithm萬(wàn)青云培養(yǎng)單位（院、系）：信息工程學(xué)院計(jì)算機(jī)系指導(dǎo)教師姓名、職稱(chēng)：王命延教授申請(qǐng)學(xué)位的學(xué)科門(mén)類(lèi)：工學(xué)學(xué)科專(zhuān)業(yè)名稱(chēng)：計(jì)算機(jī)科學(xué)與技術(shù)論文答辯日期：2016年5月24日答辯委員會(huì)主席：評(píng)閱人：2016年月日一、學(xué)位論文獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的

2、。研究成果據(jù)我所知，除了文中特別加Ｗ標(biāo)注和致謝的地方外，論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果，也不包含為獲得南昌大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已。與我在論文中作了明確的說(shuō)明并表示謝意。瓜年學(xué)位論文作者簽名（手寫(xiě)）：或簽字曰期：月以曰＾二、學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解南昌大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定，同意學(xué)校有權(quán)保留并向國(guó)家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版，允許論文被查閱和借閱。本人授權(quán)南昌大學(xué)可將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)。進(jìn)

3、行檢索，可Ｗ采用影印、縮印或掃描等復(fù)制手段保存、匯編本學(xué)位論文同時(shí)授權(quán)北京萬(wàn)方數(shù)據(jù)股份有限公司和中國(guó)學(xué)術(shù)期刊）（光盤(pán)版電子雜志社將本學(xué)位論文收錄到《中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù)》和《中國(guó)優(yōu)秀博碩±學(xué)位論文全文數(shù)據(jù)＂＂庫(kù)》中全文發(fā)表，并通過(guò)網(wǎng)絡(luò)向社會(huì)公眾提供信息服務(wù)，同意按章程規(guī)定享受相關(guān)權(quán)益。ｇｋ學(xué)位論文作者簽名（手寫(xiě)）：７＾＾畝導(dǎo)師簽名（手寫(xiě)）；簽字＇日期：＾年Ｓ月日簽字日期：市年＾月日＞＾論文題目若巧Ｌ自、Ａ吏）、勺或余家吁論文□／名和三±±口學(xué)號(hào)３級(jí)別博碩ｆ作１八乃｜備｜＾Ｉ｜＿＿＾■？如／／業(yè)院系所專(zhuān)Ｈ義牙

4、妓寺每科Ｅｍａｉｌ＿：備法回＂＂開(kāi)□（，年）＾保密向校學(xué)位辦申請(qǐng)獲批準(zhǔn)為保密＿＿月后公開(kāi)摘要摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展，社會(huì)進(jìn)入了一個(gè)數(shù)據(jù)爆炸的時(shí)代。這些數(shù)據(jù)蘊(yùn)含著大量的價(jià)值，如何從這些海量數(shù)據(jù)中挖掘出有價(jià)值的信息成為了當(dāng)前的研究熱點(diǎn)。面對(duì)海量的數(shù)據(jù)，傳統(tǒng)的單機(jī)處理技術(shù)已經(jīng)無(wú)法處理，因而人們開(kāi)始尋求新的解決辦法，云計(jì)算、大數(shù)據(jù)處理技術(shù)也就應(yīng)運(yùn)而生了。在眾多的大數(shù)據(jù)處理技術(shù)中，Spark是近幾年興起的一種基于內(nèi)存計(jì)算的并行計(jì)算框架。它的優(yōu)勢(shì)在于十分擅長(zhǎng)進(jìn)行交互式和迭代式計(jì)算，因而受到廣泛的使用。本文在Spark框架上對(duì)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的方法作了

5、并行化的設(shè)計(jì)。文中還涉及到詞語(yǔ)相似度的計(jì)算，對(duì)計(jì)算方法作了一些改進(jìn)。最后將這些方法應(yīng)用到微博廣告的投放中去，實(shí)現(xiàn)廣告的定向投放。本文的研究工作可以分為以下四個(gè)方面：1.基于Spark框架，設(shè)計(jì)了LDA主題模型的并行化方法。在LDA模型中，采用吉布斯采樣的方法對(duì)模型進(jìn)行推導(dǎo)。通過(guò)對(duì)數(shù)據(jù)集的分割，將每個(gè)子數(shù)據(jù)集分配到集群中的各個(gè)節(jié)點(diǎn)進(jìn)行并行運(yùn)算，從而實(shí)現(xiàn)LDA模型的并行計(jì)算。2.對(duì)二分K均值算法進(jìn)行改進(jìn)并設(shè)計(jì)了基于Spark的并行算法。針對(duì)原有的算法在二分過(guò)程中，初始質(zhì)心的選擇速度存在不足，提出了采用極大距離點(diǎn)作為初始質(zhì)心的二分K均值算法。改進(jìn)后的算法，大大降低了運(yùn)

6、算時(shí)間。另外，本文在Spark框架下，作了改進(jìn)后的二分K均值算法的并行化設(shè)計(jì)。3.對(duì)詞語(yǔ)相似度計(jì)算方法做了改進(jìn)。本文的詞語(yǔ)相似度計(jì)算方法是基于HowNet的，通過(guò)對(duì)HowNet的研究，本文將對(duì)詞語(yǔ)相似度計(jì)算方法進(jìn)行改進(jìn)，實(shí)驗(yàn)表明改進(jìn)后的詞語(yǔ)間相似度更符合人們?nèi)粘５睦斫夂驼J(rèn)知。4.結(jié)合已得到的研究成果，設(shè)計(jì)了微博廣告定向投放方案。具體的方法是利用本文第一、二部分提出的LDA、二分K均值并行算法從微博數(shù)據(jù)中挖掘出用戶(hù)的興趣，再利用本文第三部分提出的詞語(yǔ)相似度計(jì)算方法對(duì)用戶(hù)興趣詞與廣告投放關(guān)鍵詞進(jìn)行相似度計(jì)算，選擇出與用戶(hù)興趣最相似的廣告投放給用戶(hù)，從而實(shí)現(xiàn)廣告的定向

7、投放。關(guān)鍵詞：Spark；LDA；二分K均值；詞語(yǔ)相似度；微博廣告IAbstractAbstractWiththerapiddevelopmentoftheInternet,thesocietyhasenteredaeraofdataexplosion.Sincethesedatacontainsusefulinformation,howtominevaluableinformationfrombigdatahasbecomethehotspot.Facedwithafloodofdata,traditionalstand-alonedataprocessing

8、hasbeenunabl

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 67



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳，版權(quán)歸屬用戶(hù)，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用

相關(guān)文章

相關(guān)標(biāo)簽

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用

相關(guān)文章

相關(guān)標(biāo)簽

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用

并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用