資源描述:
《基于深度學(xué)習(xí)的文本情感分類研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、SouthChinaUniversitofTechnoloygy碩士學(xué)位論文基于深度學(xué)習(xí)的文本情感分類研究作者姓名學(xué)科專業(yè)計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)教師董敏副教授所在學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院論文提交日期2018年4月1?J_|TheResearchofTextSentimentClassificationBasedonDeepLearningADissertationSubmittedfortheDegreeofMasterCandidate:TangXueSupervisor:Prof.DongMinSouthC
2、hinaUniversityofTechnologyGuangzhou,China分類號(hào):TP39學(xué)校代號(hào):10561學(xué)號(hào):201520130707華南理工大學(xué)碩士學(xué)位論文基于深度學(xué)習(xí)的文本情感分類研究作者姓名:湯雪指導(dǎo)教師姓名、職稱:董敏副教授申請(qǐng)學(xué)位級(jí)別:工學(xué)碩士學(xué)科專業(yè)名稱:計(jì)算機(jī)科學(xué)與技術(shù)研究方向:自然語言處理論文提交日期:2018年4月20日論文答辯日期:2018年5月31日學(xué)位授予單位:華南理工大學(xué)學(xué)位授予日期:年月日答辯委員會(huì)成員:主席:高英教授委員:李桂清教授,陳偉能教授,畢盛副教授,蘇錦鈿副教授羊南理工大學(xué)學(xué)位振又原創(chuàng)性聲明本人鄭重聲明:所呈交
3、的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研宄所取得的研宄成果。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體:均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律后果I由本人承擔(dān)。,:日期作者簽名摘:這年6月.4日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定::即研宄生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬華南理工大學(xué)。學(xué)校有權(quán)保存并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許學(xué)位論文被查閱(除在保密期內(nèi)的保密論文
4、外);學(xué)校可以公布學(xué)位論文的全部或部分內(nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存、匯編學(xué)位一。致論文本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相。本學(xué)位論文屬于:□保密,(校保密委員會(huì)審定為涉密學(xué)位時(shí)間:)_年_月日___于年月日解密后適用本授權(quán)書。_____0不保密,同意在校園網(wǎng)上發(fā)布d共校內(nèi)師生和與學(xué)校有共享協(xié)議的單位瀏覽;同意將本人學(xué)位論文提交中國學(xué)術(shù)期刊(光盤版)電子雜志社全文出版和編入CNKI《中國知識(shí)資源“總庫”》,傳播學(xué)位論文的全部或部分內(nèi)容。(請(qǐng)?jiān)谝陨舷鄳?yīng)方框內(nèi)打V)w作者簽名:日期:kf、指導(dǎo)教師簽名:日期M
5、m^I聯(lián)作者聯(lián)系電話:電子郵箱:系地址(含郵編):摘要隨著互聯(lián)網(wǎng)的普及,人們喜歡在互聯(lián)網(wǎng)上主動(dòng)分享自己的觀點(diǎn)意見和情緒感受,其中大部分情感內(nèi)容都以文本為形式。對(duì)這些文本進(jìn)行情感分析,有利于政府控制輿情、企業(yè)精準(zhǔn)營銷和消費(fèi)者了解產(chǎn)品。因此,對(duì)常見的文本內(nèi)容:微博和用戶評(píng)論進(jìn)行情感分類,是一個(gè)很有研究意義的課題。本文分別針對(duì)基于詞向量和改進(jìn)損失函數(shù)的情感分類、基于卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的情感分類、基于特征融合和模型融合的情感分類這三個(gè)方面進(jìn)行研究。(1)基于詞向量和改進(jìn)損失函數(shù)的情感分類。針對(duì)現(xiàn)有詞向量在情感語義相似度表現(xiàn)不太理想的問題,本文使用包含較多
6、情感色彩的用戶評(píng)論語料訓(xùn)練詞向量,實(shí)驗(yàn)表明,獲得的詞向量對(duì)情感分類效果有明顯的提升。針對(duì)常用的交叉熵?fù)p失函數(shù)不考慮預(yù)測錯(cuò)誤的概率和類別,導(dǎo)致對(duì)“較容易分錯(cuò)”和不平衡的樣本不敏感的問題,本文提出一種新的損失函數(shù),同時(shí)考慮預(yù)測錯(cuò)誤和正確的概率對(duì)損失的影響,并引入類別權(quán)重,提高不平衡數(shù)據(jù)的分類效果。(2)基于卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的情感分類。針對(duì)Kim[2]提出的TextCNN(ConvolutionNeuralNetwork)只在句子長度方向上進(jìn)行一維卷積,缺少詞嵌入維度上的卷積,和池化層只有最大池化,可能丟失重要信息的不足,本文提出四種改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),在卷積層加入詞嵌入維
7、度上的四種卷積,在池化層加入平均池化,提取更充分的特征。本文借鑒Vaswani[2]等人提出的Transformer只使用注意力構(gòu)建機(jī)器翻譯模型的思想,考慮以單層多頭注意力機(jī)制作為情感分類模型,針對(duì)一般的注意力機(jī)制效果不好的問題,本文提出三種改進(jìn)的點(diǎn)積注意力機(jī)制結(jié)構(gòu),加入殘差連接、非線性函數(shù),提高注意力機(jī)制的分類效果。實(shí)驗(yàn)驗(yàn)證了,本文提出的兩種改進(jìn)模型對(duì)分類準(zhǔn)確率均有較好的提高。(3)基于特征融合和模型融合的情感分類。針對(duì)深層特征的融合效果不好的問題,本文提出使用雙向LSTM(LongShort-TermMemory)和注意力機(jī)制的并行結(jié)