資源描述:
《機(jī)器學(xué)習(xí)算法之旅.docx》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、機(jī)器學(xué)習(xí)算法之旅在理解了我們需要解決的機(jī)器學(xué)習(xí)問(wèn)題之后,我們可以思考一下我們需要收集什么數(shù)據(jù)以及我們可以用什么算法。本文我們會(huì)過(guò)一遍最流行的機(jī)器學(xué)習(xí)算法,大致了解哪些方法可用,很有幫助。機(jī)器學(xué)習(xí)領(lǐng)域有很多算法,然后每種算法又有很多延伸,所以對(duì)于一個(gè)特定問(wèn)題,如何確定一個(gè)正確的算法是很困難的。本文中我想給你們兩種方法來(lái)歸納在現(xiàn)實(shí)中會(huì)遇到的算法。學(xué)習(xí)方式根據(jù)如何處理經(jīng)驗(yàn)、環(huán)境或者任何我們稱之為輸入的數(shù)據(jù),算法分為不同種類。機(jī)器學(xué)習(xí)和人工智能課本通常先考慮算法可以適應(yīng)的學(xué)習(xí)方式。這里只討論幾個(gè)主要的學(xué)習(xí)風(fēng)格或?qū)W習(xí)模型,并且有幾個(gè)基本的例子。這種分類或者組織的方法很好,
2、因?yàn)樗仁鼓闳ニ伎驾斎霐?shù)據(jù)的角色和模型準(zhǔn)備的過(guò)程,然后選擇一個(gè)最適合你的問(wèn)題的算法,從而得到最佳的結(jié)果?!けO(jiān)督學(xué)習(xí):輸入數(shù)據(jù)被稱為訓(xùn)練數(shù)據(jù),并且有已知的結(jié)果或被標(biāo)記。比如說(shuō)一封郵件是否是垃圾郵件,或者說(shuō)一段時(shí)間內(nèi)的股價(jià)。模型做出預(yù)測(cè),如果錯(cuò)了就會(huì)被修正,這個(gè)過(guò)程一直持續(xù)到對(duì)于訓(xùn)練數(shù)據(jù)它能夠達(dá)到一定的正確標(biāo)準(zhǔn)。問(wèn)題例子包括分類和回歸問(wèn)題,算法例子包括邏輯回歸和反向神經(jīng)網(wǎng)絡(luò)?!o(wú)監(jiān)督學(xué)習(xí):輸入數(shù)據(jù)沒(méi)有被標(biāo)記,也沒(méi)有確定的結(jié)果。模型對(duì)數(shù)據(jù)的結(jié)構(gòu)和數(shù)值進(jìn)行歸納。問(wèn)題例子包括Associationrulelearning和聚類問(wèn)題,算法例子包括Apriori算法和K-均值
3、算法?!ぐ氡O(jiān)督學(xué)習(xí):輸入數(shù)據(jù)是被標(biāo)記的和不被標(biāo)記的數(shù)據(jù)的混合,有一些預(yù)測(cè)問(wèn)題但是模型也必須學(xué)習(xí)數(shù)據(jù)的結(jié)構(gòu)和組成。問(wèn)題例子包括分類和回歸問(wèn)題,算法例子基本上是無(wú)監(jiān)督學(xué)習(xí)算法的延伸。·增強(qiáng)學(xué)習(xí):輸入數(shù)據(jù)可以刺激模型并且使模型做出反應(yīng)。反饋不僅從監(jiān)督學(xué)習(xí)的學(xué)習(xí)過(guò)程中得到,還從環(huán)境中的獎(jiǎng)勵(lì)或懲罰中得到。問(wèn)題例子是機(jī)器人控制,算法例子包括Q-learning以及Temporaldifferencelearning。當(dāng)整合數(shù)據(jù)模擬商業(yè)決策時(shí),大多數(shù)會(huì)用到監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的方法。當(dāng)下一個(gè)熱門話題是半監(jiān)督學(xué)習(xí),比如圖像分類問(wèn)題,這中問(wèn)題中有一個(gè)大的數(shù)據(jù)庫(kù),但是只有一小部分圖
4、片做了標(biāo)記。增強(qiáng)學(xué)習(xí)多半還是用在機(jī)器人控制和其他控制系統(tǒng)的開(kāi)發(fā)上。算法相似性算法基本上從功能或者形式上來(lái)分類。比如,基于樹(shù)的算法,神經(jīng)網(wǎng)絡(luò)算法。這是一個(gè)很有用的分類方式,但并不完美。因?yàn)橛性S多算法可以輕易地被分到兩類中去,比如說(shuō)LearningVectorQuantization就同時(shí)是神經(jīng)網(wǎng)絡(luò)類的算法和基于實(shí)例的方法。正如機(jī)器學(xué)習(xí)算法本身沒(méi)有完美的模型一樣,算法的分類方法也沒(méi)有完美的。在這一部分我列出了我認(rèn)為最直觀的方法歸類的算法。我并沒(méi)有窮盡算法或者分類方法,但是我想對(duì)于讓讀者有一個(gè)大致了解很有幫助。如果有你了解的我沒(méi)有列出來(lái),歡迎留言分享。現(xiàn)在我們開(kāi)始!R
5、egressionRegression(回歸分析)關(guān)心的是變量之間的關(guān)系。它應(yīng)用的是統(tǒng)計(jì)方法,幾個(gè)算法的例子包括:·OrdinaryLeastSquares·LogisticRegression·StepwiseRegression·MultivariateAdaptiveRegressionSplines(MARS)·LocallyEstimatedScatterplotSmoothing(LOESS)Instance-basedMethodsInstancebasedlearning(基于實(shí)例的學(xué)習(xí))模擬了一個(gè)決策問(wèn)題,所使用的實(shí)例或者例子是對(duì)模型非常重要的
6、。這種方法對(duì)現(xiàn)有數(shù)據(jù)建立一個(gè)數(shù)據(jù)庫(kù)然后把新數(shù)據(jù)加進(jìn)去,再用一個(gè)相似性測(cè)量方法從而在數(shù)據(jù)庫(kù)里找出一個(gè)最優(yōu)匹配,進(jìn)行一個(gè)預(yù)測(cè)。由于這個(gè)原因,這種方法也被稱為勝者為王方法和基于內(nèi)存的方法?,F(xiàn)在關(guān)注的焦點(diǎn)在存儲(chǔ)數(shù)據(jù)的表現(xiàn)形式和相似性測(cè)量方法?!-NearestNeighbour(kNN)·LearningVectorQuantization(LVQ)·Self-OrganizingMap(SOM)RegularizationMethods這是一個(gè)對(duì)其他方法的延伸(通常是回歸方法),這個(gè)延伸對(duì)越簡(jiǎn)單的模型越有利,并且更擅長(zhǎng)歸納。我在這里列出它是因?yàn)樗牧餍泻蛷?qiáng)大?!i
7、dgeRegression·LeastAbsoluteShrinkageandSelectionOperator(LASSO)·ElasticNetDecisionTreeLearningDecisiontreemethods(決策樹(shù)方法)建立了一個(gè)根據(jù)數(shù)據(jù)中實(shí)際值決策的模型。決策樹(shù)用來(lái)解決歸納和回歸問(wèn)題?!lassificationandRegressionTree(CART)·IterativeDichotomiser3(ID3)·C4.5·Chi-squaredAutomaticInteractionDetection(CHAID)·DecisionSt
8、ump·RandomFo