資源描述:
《基于主成分分析的單變量時(shí)間序列聚類方法》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、第20卷第6期2叭1年12月運(yùn)OPERATlONS籌與管理RESEARCHANDMANAGEMENTSCIENCEV01.20.No.6Dec.2011基于主成分分析的單變量時(shí)間序列聚類方法蘇木亞,郭崇慧(大連理工大學(xué)系統(tǒng)工程研究所.遼寧大連116024)摘要:針對時(shí)間序列數(shù)據(jù)的高維特性,在進(jìn)行理論分析的基礎(chǔ)上,利用主成分分析法提出了一種單變量時(shí)間序列數(shù)據(jù)降維的新方法,進(jìn)而提出了基于主成分分析的單變量時(shí)間序列聚類方法。其主要思想是在線性空間中的同一組基下,用系數(shù)之間的相似性來刻畫對應(yīng)時(shí)間序列之間相似性,在理論分析過程中,首先對單變量時(shí)間序列數(shù)據(jù)集進(jìn)行主成分分析。其次分析了單
2、變量時(shí)間序列數(shù)據(jù)集、樣本協(xié)方差矩陣的特征向量與主成分之間的關(guān)系,并證明了由主成分構(gòu)成的向量組線性無關(guān)。為了進(jìn)一步驗(yàn)證理論分析結(jié)果的正確性和所提算法的有效性,分別利用仿真數(shù)據(jù)和真實(shí)的股票數(shù)據(jù)進(jìn)行了數(shù)值實(shí)驗(yàn)。關(guān)鍵詞:多元統(tǒng)計(jì)分析;單變量時(shí)間序列;主成分分析;聚類分析中圖分類號:0212.4文章標(biāo)識碼:A文章編號:1007—322l(2011)06·0066-07UniVariateTimeSer.eSCIuster.ngMethOdBasedOnPr.ncipaICOmpOnentAnaIySlsSUMu—ya,GUOChong-hui(肌s脅“紀(jì)礦s弘拋冊E哂乃eer啦’,D
3、aZ如廳‰溉”渺0,死c^noJ[Dgy,Da艦凡116024,C^i冊)Abstract:Fortheh培hdimensionalityoftimeseries,basedontheoreticalanalysi8,anewmethodi8pmposedtoreducethedimensionofuniVariatetimeserie8Viaprincipalcomponentanalysi8,thu8uniVariatetimeseriesclus.teringmethodbasedonprincipalcomponentanalysisispresented.Them
4、ainideaisthat,similaritiesamongtheuniva“atetimeseriesarerenectedbysimilaritiesamongthecorrespondingcoe伍cientsunderthesamebasicvec·torsoflinearspace.Intheprocessoftheoreticalanalysis,wenrstIydotheprincipalcomponentanaly8isonuni—Variatetimese“esdata8etsandthen8nalyzetherelationshipamonguniva
5、riatetimeseries,eigenVectorsofsam—plecoVariancematrixandprincipalcomponent8.Moreo、,er,weproveth8ttheVecto娼composedofprincipaleom—ponentsarelinearindependent.Inordertofurtherverifythecorrectne8softheoreticalanalysi8resultsandtheperfb皿anceoftheproposedalgorithm,simulationdataandrealstockdata
6、areusedtodothenumericalexperi—mentsfinally.KeywOrds:uniVariatetimeseries;principalcomponentanaly8i8;chlsteranalysi8O引言時(shí)間序列數(shù)據(jù)是一種非常重要的高維數(shù)據(jù)類型。與靜態(tài)數(shù)據(jù)不同,時(shí)間序列數(shù)據(jù)的屬性值隨時(shí)間的變化而變化。對時(shí)間序列數(shù)據(jù)進(jìn)行分析和挖掘能夠?yàn)楸姸囝I(lǐng)域提供有價(jià)值的信息,時(shí)間序列聚類分析是時(shí)間序列數(shù)據(jù)挖掘中的重要任務(wù)之一,廣泛應(yīng)用于工程、金融和商業(yè)等領(lǐng)域。文[1]將已有的時(shí)間序列聚類方法分為三大類:基于原始數(shù)據(jù)集的聚類、基于特征的聚類和基于模型的聚類?;?/p>
7、于原始數(shù)據(jù)集的聚類收稿日期:2010-05-18基金項(xiàng)目:國寥自然科學(xué)基金資助項(xiàng)目(10571018.70871015);國家高技術(shù)研完發(fā)展計(jì)劃(863計(jì)劃)資助項(xiàng)目(2008AA042107)作者簡介:蘇木亞(1983-).男。蒙古族.博士研究生.研究方向?yàn)榻虛?jù)挖掘與商務(wù)智能;郭崇慧(1973·).男.博士.教授。博士生導(dǎo)師,研究方向?yàn)橄到y(tǒng)優(yōu)化方法、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。第6期蘇木亞,等:基于主成分分析的單變量時(shí)間序列聚類方法67由于時(shí)間序列數(shù)據(jù)的高維特性,致使算法的時(shí)間復(fù)雜度和空間復(fù)雜度很高,這限制了基于原始數(shù)據(jù)