自然語言處理中半監(jiān)督算法的應(yīng)用

自然語言處理中半監(jiān)督算法的應(yīng)用

ID:22380714

大?。?5.00 KB

頁數(shù):5頁

時間:2018-10-28

自然語言處理中半監(jiān)督算法的應(yīng)用_第1頁
自然語言處理中半監(jiān)督算法的應(yīng)用_第2頁
自然語言處理中半監(jiān)督算法的應(yīng)用_第3頁
自然語言處理中半監(jiān)督算法的應(yīng)用_第4頁
自然語言處理中半監(jiān)督算法的應(yīng)用_第5頁
資源描述:

《自然語言處理中半監(jiān)督算法的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、自然語言處理中半監(jiān)督算法的應(yīng)用  摘要自然語言處理技術(shù)在快速發(fā)展中,為人們的生活帶來了一定的便捷。監(jiān)督學習方法在自然語言處理技術(shù)發(fā)展過程中起到了推動型作用,但是監(jiān)督學習方法在落實過程中對于有關(guān)資料的依賴性較高,非常容易出現(xiàn)標注預(yù)料缺乏的問題。在這種情況下,半監(jiān)督學習就是一種最為的選擇。半監(jiān)督學習主要是對于標記數(shù)據(jù)與無標記數(shù)據(jù)同時進行應(yīng)用,這樣能夠充分利用標記數(shù)據(jù),進而推動自然語言處理技術(shù)的發(fā)展。  【關(guān)鍵詞】半監(jiān)督學習跨語言詞性標注主動學習  半監(jiān)督學習是近幾年機器學習領(lǐng)域內(nèi)最為熱點的一個課題,主要就是對于標記數(shù)據(jù)與無標記數(shù)據(jù)利用進行分析研究,進而獲得比原

2、有有監(jiān)督學習方法更加優(yōu)良的功能。半監(jiān)督學習理念只從推出之后,科研人員研究了較多的方法,但是現(xiàn)在實際應(yīng)用過程中還是存在較多并未標注的數(shù)據(jù),在標注數(shù)據(jù)獲取上面具有較高的難度,未標記數(shù)據(jù)數(shù)量遠遠超過標記數(shù)據(jù)數(shù)量。就以生物學角度而言,科研人員在蛋白質(zhì)結(jié)構(gòu)分析上面可以花費多年的研究時間,其中無標記樣本數(shù)量占據(jù)大部分。  1基于主動學習的半監(jiān)督支持向量機研究與應(yīng)用  1.1半監(jiān)督支持向量機的定義  半監(jiān)督支持向量機是一種具有代表性的半監(jiān)督機器學習算法,是支持向量?C算法內(nèi)的一個分支結(jié)構(gòu)。分類準測也就是對于最大與最小風險數(shù)值對于標準進行檢測。半監(jiān)督支持向量機與聚類假設(shè)十

3、分吻合,聚類假設(shè)主要表示在將分類界面內(nèi)的數(shù)據(jù)最大程度進行分析之后,所劃分得到的區(qū)域。  1.2最優(yōu)化方法  半監(jiān)督支持向量機在對于最優(yōu)化目標尋找過程中,只有一個目的就是對于非凸優(yōu)化問題進行分析,大部分科研人員在研究過程中都是應(yīng)用求近似解的方式,通過迭代的形成,逐漸尋找到優(yōu)化目標。在對于非凸優(yōu)化問題計算過程中,最為主要的限制因素就是半監(jiān)督支持向量機。本文在最優(yōu)化方法分析研究過程中,利用平均隨機梯度下降的方法進行分析?! ‰S機梯度下降算法是隨機近似算法被的重要組成部分,在機器學習結(jié)構(gòu)內(nèi)應(yīng)用十分廣泛,例如支持向量機。隨機梯度下降算法應(yīng)用最為主要的一個優(yōu)勢就是能夠

4、對于權(quán)重向量進行在線更新?! 【碗S機近似算法理論而言,在實際應(yīng)用過程中無法計算到最佳結(jié)果,但是伴隨著近幾年科研人員對其深入性研究分析,科研人員研究發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)在保證充足的情況下,在迭代計算過程中,隨機梯度下降類算法能夠計算得出最優(yōu)結(jié)果。這個發(fā)現(xiàn)對于開展大規(guī)模訓(xùn)練活動而言,對于整個活動開展具有促進性意義。平均隨機梯度下降與原有隨機梯度下降在應(yīng)用效果上面相比較,所具有的收斂速度更加快速,計算穩(wěn)定性也得到了顯著提高?! ≌G闆r下,對于樣本進行梯度計算求和結(jié)果,等同于每次對于樣本的隨機性選擇,對于梯度進行計算,權(quán)重也能夠在線更新?! ?基于圖的半監(jiān)督算法在自然

5、語言處理中的應(yīng)用  近幾年,科研人員對于圖的半監(jiān)督算法給與了較高的關(guān)注,主要原因是由于圖的半監(jiān)督算法與一般假設(shè)相比較,應(yīng)用更加便捷,解釋十分容易,在應(yīng)用的領(lǐng)域內(nèi)都取得了良好的效果。但是,圖的半監(jiān)督算法在應(yīng)用過程中十分繁瑣,同時由于計算流程屬于直推式的,這樣也就表示在對于測試集更換之后,需要重新進行計算。圖的半監(jiān)督算法在小數(shù)據(jù)集上面雖然取得了一定成果,但是在大規(guī)模數(shù)據(jù)上面應(yīng)用還存在一定不足。基于圖的半監(jiān)督算法在自然語言處理中應(yīng)用,主要原因有兩個,分別是復(fù)雜度較高與計算代價?! ?.1基于圖的半監(jiān)督算法  基于圖的半監(jiān)督算法在實際應(yīng)用過程中,就是將樣本內(nèi)全部數(shù)

6、據(jù)構(gòu)建成為一個相似性較高的圖,圖上面所具有的每一個點都能夠代表一個樣本內(nèi)的數(shù)據(jù),兩個節(jié)點之間的間距一般情況下標示樣本之間所具有的相似度,表示出兩個樣本之間所具有的關(guān)聯(lián)。在對于相似性進行定義過程中,主要有兩種方法,年分別是高斯核與K緊鄰?! ?.2NLP任務(wù)中圖算法數(shù)據(jù)稀疏問題的解決方法  2.2.1詞向量簡介  近幾年,詞向量在自然語言內(nèi)得到了顯著關(guān)注。詞向量主要是在深度學習算法之后計算得出,詞向量應(yīng)用到自然語言處理領(lǐng)域內(nèi),最為關(guān)鍵的一個技術(shù)就是詞語用法?! ≡谧匀徽Z言處理領(lǐng)域內(nèi),統(tǒng)計方法已經(jīng)成為主流方法,自然語言問題在轉(zhuǎn)變?yōu)闄C器學習問題的時候,首先就需要

7、應(yīng)用數(shù)學符號對于自然語言問題進行表示?! ≡谠~向量沒有產(chǎn)生之前,自然語言處理應(yīng)該最為廣泛的方式為one-hot,這種表示方法主要就是將自然語言轉(zhuǎn)變?yōu)閛/l向量,向量的長度就是詞語長短?! ?.2.2詞匯化特征與詞向量特征的使用方式  在對于詞匯化特征與詞向量特征使用方式分析研究過程中,就以詞性標注任務(wù)作為研究對象,對于詞向量特征怎樣提高標準精確性進行分析研究?! ≡谧匀徽Z言處理領(lǐng)域內(nèi),最為基礎(chǔ)性技術(shù)就是詞性標注,為每個詞匯標注針對性信息。正常情況下,在對于詞性標注過程中,可以將其看成序列標注問題,部分科研人員還將其看成分類問,本文在分析研究中,就將其看稱為

8、分類問題。要是文內(nèi)一共具有n個詞性,在對于每一個詞進行標注過程中,

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。