資源描述:
《并行l(wèi)da、聚類(lèi)算法的研究及應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、分類(lèi)號(hào):密級(jí):UDC:學(xué)號(hào):406130913132南昌大學(xué)碩士研究生學(xué)位論文并行LDA、聚類(lèi)算法的研究及應(yīng)用TheResearchandApplicationofParallelLatentDirichletAllocationandClusteringAlgorithm萬(wàn)青云培養(yǎng)單位(院、系):信息工程學(xué)院計(jì)算機(jī)系指導(dǎo)教師姓名、職稱(chēng):王命延教授申請(qǐng)學(xué)位的學(xué)科門(mén)類(lèi):工學(xué)學(xué)科專(zhuān)業(yè)名稱(chēng):計(jì)算機(jī)科學(xué)與技術(shù)論文答辯日期:2016年5月24日答辯委員會(huì)主席:評(píng)閱人:2016年月日一、學(xué)位論文獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的
2、。研究成果據(jù)我所知,除了文中特別加W標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果,也不包含為獲得南昌大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已。與我在論文中作了明確的說(shuō)明并表示謝意。瓜年學(xué)位論文作者簽名(手寫(xiě)):或簽字曰期:月以曰^二、學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解南昌大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校有權(quán)保留并向國(guó)家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)南昌大學(xué)可將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)。進(jìn)
3、行檢索,可W采用影印、縮印或掃描等復(fù)制手段保存、匯編本學(xué)位論文同時(shí)授權(quán)北京萬(wàn)方數(shù)據(jù)股份有限公司和中國(guó)學(xué)術(shù)期刊)(光盤(pán)版電子雜志社將本學(xué)位論文收錄到《中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù)》和《中國(guó)優(yōu)秀博碩±學(xué)位論文全文數(shù)據(jù)""庫(kù)》中全文發(fā)表,并通過(guò)網(wǎng)絡(luò)向社會(huì)公眾提供信息服務(wù),同意按章程規(guī)定享受相關(guān)權(quán)益。gk學(xué)位論文作者簽名(手寫(xiě)):7^^畝導(dǎo)師簽名(手寫(xiě));簽字'日期:^年S月日簽字日期:市年^月日>^論文題目若巧L自、A吏)、勺或余家吁論文□/名和三±±口學(xué)號(hào)3級(jí)別博碩f作1八乃|備|^I|__^■?如//業(yè)院系所專(zhuān)H義牙
4、妓寺每科Email_:備法回""開(kāi)□(,年)^保密向校學(xué)位辦申請(qǐng)獲批準(zhǔn)為保密__月后公開(kāi)摘要摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展,社會(huì)進(jìn)入了一個(gè)數(shù)據(jù)爆炸的時(shí)代。這些數(shù)據(jù)蘊(yùn)含著大量的價(jià)值,如何從這些海量數(shù)據(jù)中挖掘出有價(jià)值的信息成為了當(dāng)前的研究熱點(diǎn)。面對(duì)海量的數(shù)據(jù),傳統(tǒng)的單機(jī)處理技術(shù)已經(jīng)無(wú)法處理,因而人們開(kāi)始尋求新的解決辦法,云計(jì)算、大數(shù)據(jù)處理技術(shù)也就應(yīng)運(yùn)而生了。在眾多的大數(shù)據(jù)處理技術(shù)中,Spark是近幾年興起的一種基于內(nèi)存計(jì)算的并行計(jì)算框架。它的優(yōu)勢(shì)在于十分擅長(zhǎng)進(jìn)行交互式和迭代式計(jì)算,因而受到廣泛的使用。本文在Spark框架上對(duì)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的方法作了
5、并行化的設(shè)計(jì)。文中還涉及到詞語(yǔ)相似度的計(jì)算,對(duì)計(jì)算方法作了一些改進(jìn)。最后將這些方法應(yīng)用到微博廣告的投放中去,實(shí)現(xiàn)廣告的定向投放。本文的研究工作可以分為以下四個(gè)方面:1.基于Spark框架,設(shè)計(jì)了LDA主題模型的并行化方法。在LDA模型中,采用吉布斯采樣的方法對(duì)模型進(jìn)行推導(dǎo)。通過(guò)對(duì)數(shù)據(jù)集的分割,將每個(gè)子數(shù)據(jù)集分配到集群中的各個(gè)節(jié)點(diǎn)進(jìn)行并行運(yùn)算,從而實(shí)現(xiàn)LDA模型的并行計(jì)算。2.對(duì)二分K均值算法進(jìn)行改進(jìn)并設(shè)計(jì)了基于Spark的并行算法。針對(duì)原有的算法在二分過(guò)程中,初始質(zhì)心的選擇速度存在不足,提出了采用極大距離點(diǎn)作為初始質(zhì)心的二分K均值算法。改進(jìn)后的算法,大大降低了運(yùn)
6、算時(shí)間。另外,本文在Spark框架下,作了改進(jìn)后的二分K均值算法的并行化設(shè)計(jì)。3.對(duì)詞語(yǔ)相似度計(jì)算方法做了改進(jìn)。本文的詞語(yǔ)相似度計(jì)算方法是基于HowNet的,通過(guò)對(duì)HowNet的研究,本文將對(duì)詞語(yǔ)相似度計(jì)算方法進(jìn)行改進(jìn),實(shí)驗(yàn)表明改進(jìn)后的詞語(yǔ)間相似度更符合人們?nèi)粘5睦斫夂驼J(rèn)知。4.結(jié)合已得到的研究成果,設(shè)計(jì)了微博廣告定向投放方案。具體的方法是利用本文第一、二部分提出的LDA、二分K均值并行算法從微博數(shù)據(jù)中挖掘出用戶(hù)的興趣,再利用本文第三部分提出的詞語(yǔ)相似度計(jì)算方法對(duì)用戶(hù)興趣詞與廣告投放關(guān)鍵詞進(jìn)行相似度計(jì)算,選擇出與用戶(hù)興趣最相似的廣告投放給用戶(hù),從而實(shí)現(xiàn)廣告的定向
7、投放。關(guān)鍵詞:Spark;LDA;二分K均值;詞語(yǔ)相似度;微博廣告IAbstractAbstractWiththerapiddevelopmentoftheInternet,thesocietyhasenteredaeraofdataexplosion.Sincethesedatacontainsusefulinformation,howtominevaluableinformationfrombigdatahasbecomethehotspot.Facedwithafloodofdata,traditionalstand-alonedataprocessing
8、hasbeenunabl