資源描述:
《基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究【摘要】高送轉(zhuǎn)預(yù)案公告發(fā)布前,高送轉(zhuǎn)股票具有顯著的累計(jì)正收益,因此預(yù)測高送轉(zhuǎn)股票對于投資具有重要意義。高送轉(zhuǎn)股票的預(yù)測是分類預(yù)測問題,本文利用上市公司三季度財(cái)報(bào)數(shù)據(jù),采用3種集成學(xué)習(xí)算法:由K-近鄰算法、決策樹以及加lasso懲罰項(xiàng)的邏輯斯蒂回歸算法構(gòu)建預(yù)測模型一一“組合”模型,經(jīng)典的集成學(xué)習(xí)算法一一AdaBoost算法以及隨機(jī)森林算法進(jìn)行建模。本文采用準(zhǔn)確率以及G-mean作為模型評價(jià)標(biāo)準(zhǔn),結(jié)果顯示:“組合”模型的準(zhǔn)確率最高,隨機(jī)森林和“組合”模型的G-mean表現(xiàn)相當(dāng),均優(yōu)于ada
2、boost算法。由于每年高送轉(zhuǎn)股票所占比例小于50%,數(shù)據(jù)可以看成是非平衡數(shù)據(jù),為了改善“組合”模型較差的召回率,本文采用K-Means聚類的欠抽樣方法,將此方法用在“組合”模型上,效果顯著。最后分別對上面三種模型預(yù)測的股票構(gòu)建投資組合,并以HS300指數(shù)做基準(zhǔn)。結(jié)果顯示:“組合”模型預(yù)測得到的高送轉(zhuǎn)股票組合表現(xiàn)優(yōu)于另外兩種集成學(xué)習(xí)模型。【關(guān)鍵詞】高送轉(zhuǎn)集成學(xué)習(xí)非平衡數(shù)據(jù)投資組合一、引言所謂“高送轉(zhuǎn)股票”是指上市公司大比例送紅股或大比例以資本公積金轉(zhuǎn)增股票,市場送轉(zhuǎn)股比例超過0.5的股票為“高送轉(zhuǎn)股票”。雖然上市
3、公司送股、轉(zhuǎn)增股票及不影響其當(dāng)期現(xiàn)金流,也不影響其未來現(xiàn)金流,從而這種分紅并不影響公司價(jià)值,但高送轉(zhuǎn)事件向市場傳遞了公司發(fā)展良好、行業(yè)發(fā)展前景樂觀的信息,這導(dǎo)致不少投資者盲目的投資具有高送轉(zhuǎn)概念的股票。據(jù)文獻(xiàn)研究:中國股市具有明顯的高送轉(zhuǎn)公告效應(yīng),即高送轉(zhuǎn)股票在預(yù)案日公布前會出現(xiàn)正的超額收益率[1],陳珠明(2010)通過實(shí)證研究發(fā)現(xiàn):高送轉(zhuǎn)股票在預(yù)案公告日之前具有顯著的超額收益[2],因此,投資者為了在高送轉(zhuǎn)事件中獲取更多的超額收益率,在公告前預(yù)測高送轉(zhuǎn)股票顯得至關(guān)重要了。影響上市公司實(shí)施高送轉(zhuǎn)的因素有很多,車
4、仲春等人認(rèn)為高送轉(zhuǎn)股票通常具有高積累、高業(yè)績、高股價(jià)和小股本這些特征[3],同時(shí)結(jié)合市場上一些券商的研究,本文將影響高送轉(zhuǎn)事件的主要因素定為:每股資本公積金、每股未分配利潤、每股收益、每股凈資產(chǎn)、每股現(xiàn)金凈流量、每股營業(yè)收入、上市時(shí)間以及股價(jià)九大因素。因此,投資者將預(yù)測高送轉(zhuǎn)事件是否發(fā)牛視為一個(gè)二分類問題,即股票要么“高送轉(zhuǎn)”,要么“不高送轉(zhuǎn)”。由于高送轉(zhuǎn)股票在A股市場上所占比例遠(yuǎn)小于50%,此分類問題可以看成是非平衡數(shù)據(jù)分類問題,因此本文將采用K-Means聚類的欠抽樣方法[4]解決非平衡問題。二、高送轉(zhuǎn)預(yù)測模
5、型構(gòu)建及評價(jià)(-)數(shù)據(jù)來源本文研究的樣本是2009年至2015年剔除ST、PT股票的全部A股市場股票,選用的指標(biāo)數(shù)據(jù)如表1所示,數(shù)據(jù)來源于天軟(Tinysoft)數(shù)據(jù)庫。(二)模型算法令T年為測試集年份,為了構(gòu)建“高送轉(zhuǎn)”預(yù)測模型,我們訓(xùn)練集數(shù)據(jù)選為T-1年的三季度數(shù)據(jù),訓(xùn)練集樣本選取T-1年10月31日這天公布三季度報(bào)的非ST、PT股票,訓(xùn)練集的響應(yīng)變量則由T-1年樣本公告?A案日公布的送、轉(zhuǎn)股比例是否超過0.5決定,如果超過0.5,表明樣本為“高送轉(zhuǎn)”股票,訓(xùn)練集的樣本標(biāo)簽為b否則為0;本文的測試集樣本為T年
6、10月31日公布三季度報(bào)的非ST、PT股票。首先,我們將分別使用K-近鄰算法、決策樹決策樹以及正則化的Logistic回歸構(gòu)建預(yù)測模型,并對這三種預(yù)測結(jié)果進(jìn)行投票以構(gòu)建一種“組合”模型,同時(shí)我們也分別采用集成學(xué)習(xí)算法Adaboost.隨機(jī)森林來構(gòu)建“高送轉(zhuǎn)”預(yù)測模型。1?K-近鄰算。K-近鄰算法[5]的工作原理是:存在一個(gè)樣本數(shù)據(jù)集合,并且樣本集屮的每一數(shù)據(jù)都存在標(biāo)簽,輸入沒有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個(gè)特征與樣本數(shù)據(jù)集中數(shù)據(jù)對應(yīng)的特征進(jìn)行比較,然后算法提取樣木集中前K個(gè)最相似(最近鄰)的數(shù)據(jù),選擇數(shù)據(jù)中岀現(xiàn)次
7、數(shù)最多的分類,作為新數(shù)據(jù)的分類。采用K-近鄰算法需要對自變量數(shù)據(jù)歸一化,這里采用下面公式對數(shù)據(jù)歸一化:newValue=(oldValue-min)/(max-min)(1)其中min和max分別是對應(yīng)屬性數(shù)據(jù)集的最小特征值和最大特征值。對應(yīng)K-近鄰算法,模型的參數(shù)主要為K和距離,通過對該樣本數(shù)據(jù)進(jìn)行檢驗(yàn),發(fā)現(xiàn)K取3,距離選用歐氏距離時(shí),預(yù)測結(jié)果較好。2.決策樹算法。決策樹算法[5]由Breiman等人在1984年提出的,是應(yīng)用廣泛的決策樹學(xué)習(xí)方法,該算法有兩部分組成:(1)決策樹生成;(2)決策樹剪枝。本文決策
8、樹牛成就是遞歸地構(gòu)建二叉決策樹的過程,對回歸樹用平方誤差最小化準(zhǔn)則,對分類樹用基尼指數(shù)最小化準(zhǔn)則,進(jìn)行特征選擇,牛成二叉樹。決策樹剪枝算法由兩部分組成:首先從牛成的決策樹TO底端開始不斷剪枝,直到根節(jié)點(diǎn),形成1個(gè)子樹序列{TO,T1,…,Tn};然后通過交叉驗(yàn)證法在獨(dú)立的驗(yàn)證數(shù)據(jù)集上對子樹序列進(jìn)行測試,從中選擇最優(yōu)子樹。3?正則化Logistic算法。二項(xiàng)邏輯斯蒂回歸模型