資源描述:
《數(shù)據(jù)模式探索,無監(jiān)督學(xué)習(xí)案例.docx》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、正文目錄無監(jiān)督學(xué)習(xí)3流形學(xué)習(xí)4流形學(xué)習(xí)簡介4流形學(xué)習(xí)案例一:S型三維數(shù)據(jù)降維5流形學(xué)習(xí)案例二:手寫體數(shù)字降維5流形學(xué)習(xí)案例三:使用t-SNE進(jìn)行基金收益率降維和可視化7聚類9聚類算法簡介9聚類算法案例:基于股票產(chǎn)業(yè)概念的聚類10無監(jiān)督學(xué)習(xí)應(yīng)用于因子投資——PCA算法準(zhǔn)確估計(jì)因子溢價(jià)15論文:AssetPricingwithOmittedFactors15總結(jié)18風(fēng)險(xiǎn)提示18附錄:聚類評(píng)價(jià)指標(biāo)原理19圖表目錄圖表1:無監(jiān)督學(xué)習(xí)及其應(yīng)用案例3圖表2:三維空間中的瑞士卷4圖表3:S型三維數(shù)據(jù)降維圖5圖表4:手寫數(shù)字?jǐn)?shù)據(jù)集6圖表5:手
2、寫數(shù)字降維圖16圖表6:手寫數(shù)字降維圖27圖表7:偏股混合型基金收益率降維圖8圖表8:偏股混合型基金組1凈值8圖表9:偏股混合型基金組2凈值8圖表10:聚類算法對(duì)比9圖表11:球形簇和非球形簇的聚類結(jié)果10圖表12:滬深300成分股聚類評(píng)價(jià)指標(biāo)11圖表13:中證500成分股聚類評(píng)價(jià)指標(biāo)11圖表14:滬深300成分股層次聚類圖11圖表15:中證500成分股層次聚類圖12圖表16:滬深300成分股層次聚類簇概念詞云(聚成9類)12圖表17:中證500成分股層次聚類簇概念詞云(聚成9類)13圖表18:滬深300層次聚類13圖表19:
3、中證500層次聚類14圖表20:因子溢價(jià)估計(jì)結(jié)果16無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)模型可分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),二者的主要區(qū)別在于模型訓(xùn)練過程中是否需要標(biāo)注數(shù)據(jù)(標(biāo)簽)。華泰金工人工智能系列的前期報(bào)告(系列2~系列29,20170622~20200319)介紹了大量和監(jiān)督學(xué)習(xí)相關(guān)的內(nèi)容。在實(shí)際應(yīng)用中,也可能會(huì)存在以下情況導(dǎo)致我們無法使用監(jiān)督學(xué)習(xí)模型:1.標(biāo)簽難以獲取。2.問題關(guān)注的是數(shù)據(jù)本身內(nèi)部的結(jié)構(gòu),不需要標(biāo)簽的參與。此時(shí)無監(jiān)督學(xué)習(xí)模型就會(huì)有用武之地。如圖表1所示,按照sklearn的分類,無監(jiān)督學(xué)習(xí)可以分為以下三個(gè)領(lǐng)域:1.流形學(xué)習(xí)
4、:通過非線性降維的手段將復(fù)雜的高維數(shù)據(jù)映射到低維,對(duì)于可視化數(shù)據(jù)內(nèi)部結(jié)構(gòu)很有幫助。本文將介紹使用流形學(xué)習(xí)對(duì)基金收益率降維和可視化的案例。2.聚類:通過給定樣本的特征或相似度來挖掘樣本之間的內(nèi)在聯(lián)系。本文將介紹對(duì)股票產(chǎn)業(yè)概念進(jìn)行聚類的案例。3.矩陣分解:將矩陣拆解為數(shù)個(gè)矩陣的乘積從而提取矩陣內(nèi)部隱含的信息,被用于數(shù)據(jù)降維、推薦算法中。本文將介紹借助PCA準(zhǔn)確估計(jì)因子溢價(jià)的案例。圖表1:無監(jiān)督學(xué)習(xí)及其應(yīng)用案例資料來源:流形學(xué)習(xí)流形學(xué)習(xí)簡介流形學(xué)習(xí)(manifoldlearning)是一類借鑒了拓?fù)淞餍胃拍畹慕稻S方法。流形學(xué)習(xí)的思想
5、認(rèn)為,我們所能夠觀察到的數(shù)據(jù)是由一個(gè)低維流形映射到高維空間上去的。由于數(shù)據(jù)內(nèi)部特征的限制,一些高維空間中的數(shù)據(jù)存在冗余,實(shí)際上只需要用更低的維度就能唯一地表示。一個(gè)經(jīng)典的說明流形學(xué)習(xí)思想的例子是三維空間中的瑞士卷。圖表2:三維空間中的瑞士卷資料來源:如上圖所示,瑞士卷曲面上的點(diǎn)能用三維坐標(biāo)P(x,y,z)來確定,但實(shí)際上瑞士卷可以在二維平面展開,得到一個(gè)維度更低的流形空間,這說明使用三維空間刻畫瑞士卷存在冗余。高維空間中的冗余可能會(huì)造成兩個(gè)后果:1.維度災(zāi)難:維度災(zāi)難使得要研究的問題變得復(fù)雜,也會(huì)消耗更多計(jì)算資源。2.測(cè)量誤差
6、:以瑞士卷曲面上圈出的兩個(gè)點(diǎn)為例,在流形空間(把瑞士卷展開)上兩個(gè)點(diǎn)的距離(紅色的線)很遠(yuǎn),但是用三維空間的歐氏距離來計(jì)算它們的距離則要近得多??梢姡绻覀冇^察到的數(shù)據(jù)本質(zhì)是一個(gè)二維流形,卻使用三維空間來刻畫,那么采用歐氏距離可能會(huì)有測(cè)量誤差。流形空間上點(diǎn)之間距離可以用歐氏距離測(cè)量,不代表低維流形所展開的高維空間中也可以使用歐氏距離測(cè)量,只有在流形空間中使用歐氏距離才有意義。流形學(xué)習(xí)被設(shè)計(jì)來解決以上問題。流形空間中的“流形”是在局部與歐氏空間同胚的空間,換言之,流形在局部具有歐氏空間的性質(zhì),能用歐氏距離來進(jìn)行距離計(jì)算。若將低
7、維流形嵌入到高維空間中,數(shù)據(jù)樣本在高維空間的分布雖然看上去非常復(fù)雜,但在局部仍具備歐氏空間的性質(zhì)。如圖表2中圈出兩點(diǎn)的距離,可以近似等于紅線上的點(diǎn)構(gòu)成的折線的長度,即多段歐氏距離的總和??梢哉f,流形學(xué)習(xí)的思想是在局部建立降維映射關(guān)系,然后再設(shè)法將局部映射關(guān)系推廣到全局。因此流形學(xué)習(xí)的主要應(yīng)用之一是非線性降維,在降維的空間中不僅考慮到了距離,更考慮到了生成數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)。相比于PCA這樣的線性降維,流形學(xué)習(xí)往往可以提供更好的降維效果。流形學(xué)習(xí)常用來數(shù)據(jù)降維并可視化。常用的模型如下:1.LLE(LocallyLinearEmbed
8、ding):局部線性嵌入模型,目標(biāo)為保持鄰域內(nèi)樣本之間的線性關(guān)系。2.LTSA(LocalTangentSpaceAlignment):局部切空間對(duì)齊模型,其基本思想是將流形的局部幾何先用切坐標(biāo)表示,那么流形中的每一個(gè)點(diǎn)處的切空間可以和歐式空間中的一個(gè)開子集建立同構(gòu),也就是切