關(guān)于增量學(xué)習(xí)算法

關(guān)于增量學(xué)習(xí)算法

ID:48273915

大小:38.50 KB

頁(yè)數(shù):5頁(yè)

時(shí)間:2019-12-03

關(guān)于增量學(xué)習(xí)算法_第1頁(yè)
關(guān)于增量學(xué)習(xí)算法_第2頁(yè)
關(guān)于增量學(xué)習(xí)算法_第3頁(yè)
關(guān)于增量學(xué)習(xí)算法_第4頁(yè)
關(guān)于增量學(xué)習(xí)算法_第5頁(yè)
資源描述:

《關(guān)于增量學(xué)習(xí)算法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、增量學(xué)習(xí)的概念數(shù)據(jù)挖掘過(guò)程面對(duì)的一個(gè)重要問(wèn)題是不斷演化的新數(shù)據(jù)。至關(guān)重要的是,現(xiàn)有的分類和聚類方法要以這樣一種方式解決這個(gè)問(wèn)題:分類器不斷的適應(yīng)它,這里我們就需要增量學(xué)習(xí);一種隨著新數(shù)據(jù)的發(fā)生這個(gè)過(guò)程也要跟著發(fā)生變化的學(xué)習(xí)。對(duì)大批量數(shù)據(jù)集(如商場(chǎng)銷售記錄、多媒體數(shù)據(jù))進(jìn)行處理時(shí),如果將新增樣本與已有樣本合并后處理,一方面會(huì)增加學(xué)習(xí)的難度,另一方面也因樣本集過(guò)大而消耗過(guò)多的時(shí)間和存儲(chǔ)空間。一個(gè)有效的解決方法是將新增樣本集分別訓(xùn)練,并隨著樣本集的積累逐步提高學(xué)習(xí)精度,這就是增量學(xué)習(xí)的概念。增量學(xué)習(xí)可以就新增加的知識(shí)以及演化成新的類或一個(gè)聚類而言,

2、它甚至可以合并或重組這些類。增量學(xué)習(xí)已經(jīng)成功的應(yīng)用到了許多分類問(wèn)題,特別是在商業(yè)領(lǐng)域中增量學(xué)習(xí)的過(guò)程將有助于做出重大決策。增量學(xué)習(xí)就數(shù)據(jù)集而言是有選擇性的,同時(shí)使用自適應(yīng)和動(dòng)態(tài)的有能力根據(jù)目前看到的做出正確的決策。考慮決策的影響,精度同樣應(yīng)該被考慮。摘要具有增量學(xué)習(xí)功能的數(shù)據(jù)分類技術(shù)正逐漸成為當(dāng)前信息處理的關(guān)鍵技術(shù)之一。與傳統(tǒng)的數(shù)據(jù)分類技術(shù)相比,增量學(xué)習(xí)分類技術(shù)具有顯著的優(yōu)越性。這主要表現(xiàn)在兩個(gè)方面:一方面由于其無(wú)需保存歷史數(shù)據(jù),從而減少存儲(chǔ)空間的占用;另一方面增量學(xué)習(xí)在當(dāng)前的樣本訓(xùn)練中充分利用了歷史的訓(xùn)練結(jié)果,從而顯著地減少了后續(xù)訓(xùn)練的時(shí)間

3、。隨著增量學(xué)習(xí)在數(shù)據(jù)挖掘應(yīng)用領(lǐng)域的逐漸發(fā)展,實(shí)質(zhì)上,增量學(xué)習(xí)算法領(lǐng)先一步發(fā)展變得極其重要。無(wú)標(biāo)號(hào)數(shù)據(jù)的巨大增長(zhǎng)已經(jīng)使增量學(xué)習(xí)產(chǎn)生了一個(gè)大的飛躍。從BI應(yīng)用到圖像分類,從分析到預(yù)測(cè),每個(gè)領(lǐng)域都需要學(xué)習(xí)和更新。增量學(xué)習(xí)在開(kāi)拓新領(lǐng)域的同時(shí)可以進(jìn)行知識(shí)積累。研究背景隨著信息時(shí)代的到來(lái),特別是隨網(wǎng)絡(luò)迅猛發(fā)展而出現(xiàn)的“信息爆炸”問(wèn)題,使得傳統(tǒng)的信息挖掘,知識(shí)獲取技術(shù)面臨極大的挑戰(zhàn)。圖靈獎(jiǎng)獲得者JimGray提出了一個(gè)新的經(jīng)驗(yàn)定律:網(wǎng)絡(luò)環(huán)境下每18個(gè)月產(chǎn)生的數(shù)據(jù)量等于有史以來(lái)數(shù)據(jù)量之和。美國(guó)加利福尼亞大學(xué)伯克利分校研究人員的一項(xiàng)新研究發(fā)現(xiàn):在1999年到2

4、002年這3年間,世界范圍內(nèi)信息生產(chǎn)量以平均每年30%左右的速度遞增,也就是說(shuō),在過(guò)去3年中,全球新生產(chǎn)出的信息量就翻了一番。2002年中,全球由紙張、膠片以及磁、光存儲(chǔ)介質(zhì)所記錄的信息生產(chǎn)總量達(dá)到5萬(wàn)億兆字節(jié),如果以館藏1900萬(wàn)冊(cè)書(shū)籍和其他印刷出版物的美國(guó)國(guó)會(huì)圖書(shū)館為標(biāo)準(zhǔn),5萬(wàn)億兆字節(jié)信息量足以填滿50萬(wàn)座美國(guó)國(guó)會(huì)圖書(shū)館。同時(shí)隨著網(wǎng)絡(luò)的發(fā)展,許多應(yīng)用領(lǐng)域獲取新的數(shù)據(jù)變得很容易。但是對(duì)于傳統(tǒng)的批量學(xué)習(xí)技術(shù)來(lái)說(shuō),如何從日益增加的新數(shù)據(jù)中得到有用信息是一個(gè)難題。隨著數(shù)據(jù)規(guī)模的不斷增加,對(duì)時(shí)間和空間的需求也會(huì)迅速增加,最終會(huì)導(dǎo)致學(xué)習(xí)的速度趕不上數(shù)

5、據(jù)更新的速度。機(jī)器學(xué)習(xí)是一個(gè)解決此問(wèn)題的有效方法。然而傳統(tǒng)的機(jī)器學(xué)習(xí)是批量學(xué)習(xí)方式,需要在進(jìn)行學(xué)習(xí)之前,準(zhǔn)備好所有的數(shù)據(jù)。為了能滿足在線學(xué)習(xí)的需求,需要拋棄以前的學(xué)習(xí)結(jié)果,重新訓(xùn)練和學(xué)習(xí),這對(duì)時(shí)間和空間的需求都很高,因此,迫切需要研究增量學(xué)習(xí)方法,可以漸進(jìn)的進(jìn)行知識(shí)更新,且能修正和加強(qiáng)以前的知識(shí),使得更新后的知識(shí)能適應(yīng)新增加的數(shù)據(jù)。一方面,我們擁有的數(shù)據(jù)極大豐富,其間蘊(yùn)含的信息和知識(shí)具有很大的潛在價(jià)值;另一方面,信息的更新速度也達(dá)到了令人吃驚的地步。因此,具有增量學(xué)習(xí)功能的數(shù)據(jù)分類技術(shù),正逐漸成為當(dāng)前信息處理的關(guān)鍵技術(shù)之一。與傳統(tǒng)的數(shù)據(jù)分類技

6、術(shù)相比,增量學(xué)習(xí)分類技術(shù)具有顯著的優(yōu)越性,這主要表現(xiàn)在兩個(gè)方面:一方面由于其無(wú)需保存歷史數(shù)據(jù),從而減少存儲(chǔ)空間的占用;另一方面,由于其在新的訓(xùn)練中充分利用了歷史的訓(xùn)練結(jié)果,從而顯著地減少了后續(xù)訓(xùn)練的時(shí)間。增量學(xué)習(xí)技術(shù)(incrementallearningtechnique)是一種得到廣泛應(yīng)用的智能化數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)技術(shù)。其思想是當(dāng)樣本逐步積累時(shí),學(xué)習(xí)精度也要隨之提高。與傳統(tǒng)學(xué)習(xí)技術(shù)相比,增量學(xué)習(xí)技術(shù)可以充分利用歷史學(xué)習(xí)的結(jié)果,顯著節(jié)省后繼訓(xùn)練時(shí)間。一種機(jī)器學(xué)習(xí)方法是否具有良好的增量學(xué)習(xí)功能已經(jīng)成為評(píng)價(jià)其性能優(yōu)劣的重要標(biāo)準(zhǔn)之一。一般來(lái)說(shuō),增

7、量學(xué)習(xí)主要有兩方面的應(yīng)用:一是用于數(shù)據(jù)庫(kù)非常大的情形,例如Web日志記錄;二是用于流數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)隨著時(shí)間在不斷的變化,例如股票交易數(shù)據(jù).另外在增量學(xué)習(xí)中,現(xiàn)有的增量學(xué)習(xí)算法[9]大多采用決策樹(shù)和神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)的,它們?cè)诓煌潭壬暇哂幸韵聝煞矫娴娜秉c(diǎn):一方面由于缺乏對(duì)整個(gè)樣本集期望風(fēng)險(xiǎn)的控制,算法易于對(duì)訓(xùn)練數(shù)據(jù)產(chǎn)生過(guò)量匹配;另一方面,由于缺乏對(duì)訓(xùn)練數(shù)據(jù)有選擇的遺忘淘汰機(jī)制,在很大程度上影響了分類精度。目前無(wú)論是在國(guó)際還是國(guó)內(nèi),增量學(xué)習(xí)技術(shù)[18-23,27]的研究還處于剛起步階段,還沒(méi)有形成比較統(tǒng)一的體系和比較成熟的理論。尤其是對(duì)新增的

8、樣本中含有新增的特征以及新增特征的維數(shù)不同的情況下所做的工作較少。然而,隨著特征采集的手段的不斷多樣化,如用于分類的特征是通過(guò)多個(gè)傳感器共同獲得,增量學(xué)習(xí)作為一種獲

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。