資源描述:
《數(shù)據(jù)模式探索,無監(jiān)督學(xué)習(xí)案例.docx》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、正文目錄無監(jiān)督學(xué)習(xí)3流形學(xué)習(xí)4流形學(xué)習(xí)簡介4流形學(xué)習(xí)案例一:S型三維數(shù)據(jù)降維5流形學(xué)習(xí)案例二:手寫體數(shù)字降維5流形學(xué)習(xí)案例三:使用t-SNE進行基金收益率降維和可視化7聚類9聚類算法簡介9聚類算法案例:基于股票產(chǎn)業(yè)概念的聚類10無監(jiān)督學(xué)習(xí)應(yīng)用于因子投資——PCA算法準(zhǔn)確估計因子溢價15論文:AssetPricingwithOmittedFactors15總結(jié)18風(fēng)險提示18附錄:聚類評價指標(biāo)原理19圖表目錄圖表1:無監(jiān)督學(xué)習(xí)及其應(yīng)用案例3圖表2:三維空間中的瑞士卷4圖表3:S型三維數(shù)據(jù)降維圖5圖表4:手寫數(shù)字數(shù)據(jù)集6圖表5:手
2、寫數(shù)字降維圖16圖表6:手寫數(shù)字降維圖27圖表7:偏股混合型基金收益率降維圖8圖表8:偏股混合型基金組1凈值8圖表9:偏股混合型基金組2凈值8圖表10:聚類算法對比9圖表11:球形簇和非球形簇的聚類結(jié)果10圖表12:滬深300成分股聚類評價指標(biāo)11圖表13:中證500成分股聚類評價指標(biāo)11圖表14:滬深300成分股層次聚類圖11圖表15:中證500成分股層次聚類圖12圖表16:滬深300成分股層次聚類簇概念詞云(聚成9類)12圖表17:中證500成分股層次聚類簇概念詞云(聚成9類)13圖表18:滬深300層次聚類13圖表19:
3、中證500層次聚類14圖表20:因子溢價估計結(jié)果16無監(jiān)督學(xué)習(xí)機器學(xué)習(xí)模型可分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),二者的主要區(qū)別在于模型訓(xùn)練過程中是否需要標(biāo)注數(shù)據(jù)(標(biāo)簽)。華泰金工人工智能系列的前期報告(系列2~系列29,20170622~20200319)介紹了大量和監(jiān)督學(xué)習(xí)相關(guān)的內(nèi)容。在實際應(yīng)用中,也可能會存在以下情況導(dǎo)致我們無法使用監(jiān)督學(xué)習(xí)模型:1.標(biāo)簽難以獲取。2.問題關(guān)注的是數(shù)據(jù)本身內(nèi)部的結(jié)構(gòu),不需要標(biāo)簽的參與。此時無監(jiān)督學(xué)習(xí)模型就會有用武之地。如圖表1所示,按照sklearn的分類,無監(jiān)督學(xué)習(xí)可以分為以下三個領(lǐng)域:1.流形學(xué)習(xí)
4、:通過非線性降維的手段將復(fù)雜的高維數(shù)據(jù)映射到低維,對于可視化數(shù)據(jù)內(nèi)部結(jié)構(gòu)很有幫助。本文將介紹使用流形學(xué)習(xí)對基金收益率降維和可視化的案例。2.聚類:通過給定樣本的特征或相似度來挖掘樣本之間的內(nèi)在聯(lián)系。本文將介紹對股票產(chǎn)業(yè)概念進行聚類的案例。3.矩陣分解:將矩陣拆解為數(shù)個矩陣的乘積從而提取矩陣內(nèi)部隱含的信息,被用于數(shù)據(jù)降維、推薦算法中。本文將介紹借助PCA準(zhǔn)確估計因子溢價的案例。圖表1:無監(jiān)督學(xué)習(xí)及其應(yīng)用案例資料來源:流形學(xué)習(xí)流形學(xué)習(xí)簡介流形學(xué)習(xí)(manifoldlearning)是一類借鑒了拓撲流形概念的降維方法。流形學(xué)習(xí)的思想
5、認為,我們所能夠觀察到的數(shù)據(jù)是由一個低維流形映射到高維空間上去的。由于數(shù)據(jù)內(nèi)部特征的限制,一些高維空間中的數(shù)據(jù)存在冗余,實際上只需要用更低的維度就能唯一地表示。一個經(jīng)典的說明流形學(xué)習(xí)思想的例子是三維空間中的瑞士卷。圖表2:三維空間中的瑞士卷資料來源:如上圖所示,瑞士卷曲面上的點能用三維坐標(biāo)P(x,y,z)來確定,但實際上瑞士卷可以在二維平面展開,得到一個維度更低的流形空間,這說明使用三維空間刻畫瑞士卷存在冗余。高維空間中的冗余可能會造成兩個后果:1.維度災(zāi)難:維度災(zāi)難使得要研究的問題變得復(fù)雜,也會消耗更多計算資源。2.測量誤差
6、:以瑞士卷曲面上圈出的兩個點為例,在流形空間(把瑞士卷展開)上兩個點的距離(紅色的線)很遠,但是用三維空間的歐氏距離來計算它們的距離則要近得多??梢?,如果我們觀察到的數(shù)據(jù)本質(zhì)是一個二維流形,卻使用三維空間來刻畫,那么采用歐氏距離可能會有測量誤差。流形空間上點之間距離可以用歐氏距離測量,不代表低維流形所展開的高維空間中也可以使用歐氏距離測量,只有在流形空間中使用歐氏距離才有意義。流形學(xué)習(xí)被設(shè)計來解決以上問題。流形空間中的“流形”是在局部與歐氏空間同胚的空間,換言之,流形在局部具有歐氏空間的性質(zhì),能用歐氏距離來進行距離計算。若將低
7、維流形嵌入到高維空間中,數(shù)據(jù)樣本在高維空間的分布雖然看上去非常復(fù)雜,但在局部仍具備歐氏空間的性質(zhì)。如圖表2中圈出兩點的距離,可以近似等于紅線上的點構(gòu)成的折線的長度,即多段歐氏距離的總和??梢哉f,流形學(xué)習(xí)的思想是在局部建立降維映射關(guān)系,然后再設(shè)法將局部映射關(guān)系推廣到全局。因此流形學(xué)習(xí)的主要應(yīng)用之一是非線性降維,在降維的空間中不僅考慮到了距離,更考慮到了生成數(shù)據(jù)的拓撲結(jié)構(gòu)。相比于PCA這樣的線性降維,流形學(xué)習(xí)往往可以提供更好的降維效果。流形學(xué)習(xí)常用來數(shù)據(jù)降維并可視化。常用的模型如下:1.LLE(LocallyLinearEmbed
8、ding):局部線性嵌入模型,目標(biāo)為保持鄰域內(nèi)樣本之間的線性關(guān)系。2.LTSA(LocalTangentSpaceAlignment):局部切空間對齊模型,其基本思想是將流形的局部幾何先用切坐標(biāo)表示,那么流形中的每一個點處的切空間可以和歐式空間中的一個開子集建立同構(gòu),也就是切