第38卷第5期2021年5月统计研究
Statistical Rearch
Vol.38,No.5May 2021
我国股票市场可以预测吗
———基于组合LASSO-logistic 方法的视角
*
贺平
兰伟
丁月
内容提要:本文研究了上市公司的41个特征变量对我国股票收益率样本外的可预测性。基于2010年1月至2019年10月上市公司的财务及股票交易数据,本文采用机器学习驱动的组合LASSO-logistic 算法解决了股票预测中存在的3个问题:①特征变量不足导致股票异象因子构建不全面问题,②特征变量构建过多
而存在的
“维度灾难”问题,③特征变量之间的高相关性导致预测不稳定问题。研究结果显示,组合LASSO-logistic 算法能够有效识别特征变量与预期收益之间的复杂关系,其投资组合资产配置的策略能够比传统多元Logistic 算法、
支持向量机(SVM )算法和随机森林算法得到更高的超额回报。同时,本文发现影响股票预期收益的公司特征变量并非一成不变,其显著的动态变化在一定程度上提示了我国股票市场的弱稳定性。
关键词:横截面收益预测;资产配置策略;我国股票市场;组合LASSO-logistic 方法DOI :10.19343/j.cnki.11-1302/c.2021.05.007中图分类号:F222.3
文献标识码:A
文章编号:1002-4565(2021)05-0082-15
*基金项目:国家自然科学基金项目(71532001,11931014,71991472,71702154,71702155);教育部人文社科青年基金项目(16YJC630018)。本文为首届数据科学与现代经济统计论坛入选论文。
余额宝计算器
Is the Chine Stock Market Predictable ?
—An Evidence Bad on the Combination LASSO-logistic Model
He Ping
Lan Wei
Ding Yue
Abstract :This paper analyzes the out-of-sample predictability for the Chine stock market returns with a large panel of 41individual firm characteristics.We propo a machine-learning-driven approach-combination LASSO logistic regression to solve 3problems of cross-ctional forecasts for stock return :1)Incomplete construction of anomalous factors becau of the insufficiency of firm characteristics ;
2)"Cur of
Dimensionality"problem with too many feature variables ;3)Prediction instability problem caud by the high correlation between feature variables.Our empirical evidence indicates that the combination LASSO-logistic model can effectively identify the complex patterns hidden in the characteristic variables and expected returns better than the traditional multiple logistic models ,su
pport vector machine (SVM )models ,and random forest models.We further find the firm characteristics variables affecting expected stock returns are not constant ,and their significant dynamics suggest to some extent the weak stability of the Chine stock market.
Key words :
Cross-ctional Expected Stock Returns ;Portfolio Strategy ;Chine Stock Market ;
Combination LASSO-logistic Model
第38卷第5期贺平等:我国股票市场可以预测吗?·83·
一、引言
股票收益预测是金融学术研究的一个核心问题,例如2013年诺贝尔经济学奖得主Eugene F.Fama、Lars Peter Hann和Robert J.Shiller获奖的核心成就即“资产可预期性”。众多文献研究了股票的可预测性,然而围绕股票横截面收益的预测,特别是关于样本外是否存在可预测性至今仍存争议。传统的有效市场假说认为股票价格的本质服从随机游走,股票收益的变化是随机且不可预测的。然而,现实世界中股票市场存在的套利机会促使许多学者对有效市场假说提出了质疑,并且对不同时期、不同区域的股票可预测性展开了讨论。特别是随着我国股票市场的迅速发展与不断完善,研究者们开始透
过不同角度使用不同方法对我国股票市场的可预测性进行深入研究。蒋艳霞等(2007)通过数据挖掘技术对股票收益预测时发现了股票市场往往并不是有效的,其中发展中国家的股票市场中存在着可以预测的短期趋势。刘剑锋和蒋瑞波(2010)基于上证综合指数以及深证成分指数,证明了我国股票市场不支持市场弱有效性假说,并且随着时间的推移其有效性没有改善的迹象。郑燕等(2010)采用事件研究法进行检验,发现了我国上证A股市场尚未达到半强式有效。张程睿和徐嘉倩(2019)通过构建股价同步性指标,指出了我国股票市场有效性较差,但是随着提高会计信息的质量,股票市场有效性开始逐步提高。
由于市场的有效性程度较弱,探索市场中可以影响股票收益率的因素一直是学术界和实业界的热点问题,特别是基于机器学习的股票横截面量化投资备受关注。Sharpe和William(1964)提出的资本资产定价模型首次以定量研究的角度明确了股票收益率的可预测性,认为股票预期收益率由系统风险系数唯一决定。Fama和French(1996)发现了市场风险因子、规模因子和价值因子会影响股票的预期收益率。Fama和French(2015)又提出了5因子模型,发现加入盈利能力因子和投资因子的模型对股票预期收益率的解释能力更强。除了这些公共风险因子,大量的研究通过股票的基本面信息、宏观经济信息以及技术面信息来构建其他因子试图解释股票的预期收益率。Cochrane(2011)发现相比于预期股利增长率的变化,预期贴现率对股票的预期收益率的影响和对每个股票市场波动性的解释更为显著。Harvey等(2016)以及Hou等(2017a)都发现了随着数百个特征变量被研究者公布后受到更多
关注,其影响能力会逐渐弱化。为了避免指标在受到关注后导致因子有效性降低的问题,Hou等(2017b)基于影响股票收益的数百个特征变量,提取了真正重要的投资因子和盈利因子。在国内的研究方面,姜富伟等(2011)基于我国股票市场,从样本内与样本外可预测性两个角度揭示了我国股票市场具有非常强的可预测性。蒋志强等(2019)基于31个投资组合和8个因子,发现了综合因子的预测效果优于单一因子的预测效果。
仔细分析现有的文献,本文发现已有的股票收益率预测研究主要存在3个方面的问题:①如果影响股票预期收益率的特征变量识别不够,就难以刻画所有影响股票收益率的因素;②如果特征变量构建过多,传统回归分析方法的估计有效性会大幅降低,需要新的方法来解决此类“维度灾难”问题;③过多的特征变量会存在高度相关性的问题,变量之间的高度相关性会降低变量选择方法的稳定性进而导致预测的不稳定性。例如Welch和Goyal(2008)发现了模型的不确定性和参数的不稳定性均导致传统的多元回归预测模型在美国股票市场的收益率预测并不可靠。面对研究的瓶颈,Rapach和Zhou(2013)基于美国市场识别出经济周期对股票预期收益产生的影响,对14个特征变量增加经济机制的约束之后使得预测效果得到了提升。Jiang等(2018)基于我国股票市场,使用了偏最小二乘法、主成分分析法和组合预测法从75个特征变量中提取了有效信息,进一步完善了我国股票市场特征变量的构建过程。Green等(2017)使用多元回归方法对美国股票市场中94个公司特征变量进行了预期收益预测,发现仅有少数几个特征变量是显著的,其原因是最小二乘法过
·
84·统计研究2021年5月
度拟合了样本内的数据,导致大量的特征变量在样本外的表现较差。Joachim等(2017)使用自适应分组LASSO方法从影响美国股票市场收益率预测的62个特征变量中筛选出了11个对股票预期收益有显著影响的变量,同时发现变量的高度相关性会导致预测不稳定。如果模型的特征维数较高,并且存在相关性较高的特征变量,单一地使用多元Logistic模型或者LASSO方法不能很好地消除高维数特征空间之间存在的关联性质。Timmermann(2006)指出,正如分散化的资产配置能够提高投资组合稳健收益一样,组合预测法也可以通过合理分配不同模型和变量的权重提升预测能力。Han等(2019)对等权重平均的组合预测方法的强压缩性质进行了证明,说明组合预测的强压缩性质是可以提高股票横截面收益预测值的准确性。Diebold和Shin(2019)解决了组合预测方法中变量选择的问题,通过丢弃一部分不重要的变量再进行组合预测得到了较为满意的结果。虽然现存的文献研究在不同程度上大都提升了股票预期收益的可预测性,但均不能同时很好地解决上述股票收益预测研究所面临的3个重要问题。因此,在本文中重新探索股票的可预测性问题,并尝试找到同时解决这3个问题的研究方法。
综合上述分析,本文首先结合了指标构建的可靠性以及数据获取的可行性,从41个可能影响我国股票市场横截面收益的特征变量中挖掘有效信息,建立对股票预期收益有显著影响的指标体系,以解决特征变量不足的问题;其次,本文通过利用Tibshirani(1996)提出的最小绝对值收敛和选择算法(Lea
st Absolute Shrinkage and Selection Operator,LASSO)的思想来解决因特征变量过多而导致传统模型估计不准确的问题;最后,为了解决因为特征变量之间可能存在的高度相关性所导致的预测稳定性变差的问题,本文提出一种结合了组合预测方法与LASSO思想的组合LASSO-logistic 算法,其内涵是通过LASSO算法进行变量选择后,再运用组合预测方法的强压缩性质来缓解预测的不稳定性问题。本文测算结果发现:第一,使用组合LASSO-logistic方法可以在公司特征变量构建充足时,减轻传统多元Logistic模型中无法被高效识别的问题。第二,使用组合LASSO-logistic方法来构建的股票市场投资组合,其资产配置绩效表现优异。具体来说,本文分别使用传统多元Logistic方法、组合LASSO-logistic方法、SVM方法和随机森林方法对多空对冲投资组合的横截面预期收益进行了探索,发现相较于传统多元Logistic、SVM和随机森林算法,基于组合LASSO-logistic 方法的资产配置的收益率得到了大幅提升。第三,因为股票市场随着时间变化而呈现出的不稳定性,所以一个好的预测模型需在不同时间点灵活捕捉有用的信息,本文发现组合LASSO-logistic方法可以随着时间的推移在每个月灵活地选择出显著影响上市公司股票横截面预期收益率的特征变量。实证结果显示,在2010年1月至2019年10月期间,每个月平均有3 4个特征变量被筛选出且每个月筛选出的特征数目波动不大,但是每个月筛选出来的特征变量并不总是相同的。这种现象也解释了股票特征变量的风险溢价与个股的行为因子是随着时间而显著变化的。
现存的股票收益率预测研究大多都基于美国股票市场,但是我国的经济制度与监管体系、上市公司的
规模和经营方式以及股票市场的发展程度与美国市场相比存在显著的异质性,说明在美国市场发现的规律并不能直接复制和使用在我国市场。另一方面,经历过大风大浪的我国金融市场目前处于迅速发展的阶段,股票市场的规律也有较快速度的变化。因此,亟需加强当前我国股票市场预期收益的研究。本文的组织架构如下:第二部分主要描述了研究方法;第三部分描述了数据的来源与影响股票市场横截面预期收益特征变量的构建;第四部分介绍了评价指标;第五部分使用传统多元Logistic方法、组合LASSO-logistic方法、SVM方法、随机森林方法以及投资组合分析方法对股票横截面预期收益进行预测与检验;第六部分研究了时变的特征变量溢价;第七部分是本文的结论。
第38卷第5期贺平等:我国股票市场可以预测吗?·85·
二、研究方法
本章节基于41个公司特征变量,对股票横截面收益预测的方法进行了讨论。与现有的大量文献对股票市场收益率的精确预测不同,考虑到股票市场稳定性较差,预测股票的涨跌趋势在实际构建资产配置策略时可能会更有效。本文基于股票收益变动方向的预测思想,将被解释变量设置为代表股票“涨”“跌”信号的0-1变量。基于收益率方向的预测在文献中也被大量采用,如Chung和Hong(2004)通过统计检验发现了经济变量的历史值可以预测该变量的未来变化方向,且与较为久远的时间相比,具有强波动特征的金融市场更加容易受到最近事件的影响,他们的实证结果表明Autologit模
dm单是什么意思型具有样本外股票价格方向的可预测性。Ballings等(2015)基于一系列反映公司财务状况的特征变量如账面价值、流动比例、净利润,分别使用了包含随机森林、AdaBoost、神经网络、SVM和Logistic回归的集成模型以及单一模型对欧洲股票市场的涨跌趋势进行预测,他们发现使用随机森林算法可以降低过拟合的风险,并且提升了预测的精度。李斌等(2017)以我国股票市场内19个技术指标作为不同机器学习算法模型的输入变量,并根据识别出的未来资产价格上涨和下跌趋势来构建投资组合,该策略无论从风险还是收益的角度均取得了较优的结果,通过模型的样本外投资绩效也证实了模型的有效性。
在本章节的内容中,首先回顾了传统多元Logistic模型。其次,介绍了LASSO-logistic回归模型,该方法旨在通过压缩估计的方式解决因特征变量数目过多导致估计有效性降低的问题。最后,为了克服特征变量可能存在的高度相关性导致预测结果不稳定的问题,本文提出了组合LASSO-logistic方法。
(一)Logistic回归模型
用“1”表示股票预期收益率上涨的信号,用“0”表示股票预期收益率下跌的信号,本文所讨论的股票预期收益率涨跌预测变成一个二分类的模型问题。假设p i(y i=1|X i)为第i只股票呈现“上涨”趋势的概率,X
i
和y i是模型的解释变量和被解释变量,由于p i的取值在0和1之间,通过
logit(p
i )=ln
p
i
1-p
i
的变换,得到Logistic回归模型的条件概率如式(1)所示:
log
p
i
小学三年级试卷(y
i
=1|X
i
)
1-p
i
(y
i
=1|X
i
{})=β0+∑J j=1x i,jβj(1)
其中,i=1,…,n,j=1,…,J。
Logistic回归是一种常用的处理二分类问题的线性模型。在本文的研究中,被解释变量y
i,t
∈
{0,1}代表股票的月涨跌趋势,即当月的收益率大于0,则y
i,t =1;否则y
i,t
=0。X
i,t
代表公司特征
变量,未知回归系数β通过极大似然估计方法获得,最终可以求出在第t期第i只股票取得y i,t=1的概率估计值为:
p^ i,t (y
i,t
=1|X
i,t-1
)=
exp(β^
0,t
+∑J j=1x i,j,t-1β^j,t)
1+exp(β^
0,t
+∑J j=1x i,j,t-1β^j,t)
(2)
若p^i,t(y i,t=1|X i,t-1)>0.5,则第i只股票呈现出“上涨”的信号;若p^i,t(y i,t=1|X i,t-1)≤0.5,则第i只股票呈现出“下跌”的信号。
Logistic回归模型在解决二分类问题时思路与操作都很简便,但是当公司特征变量过多时,模型会受到解释变量之间多重共线性的干扰。模型在变量选择时不能很好地剔除对股票预期收益不重要的解释变量,最终导致模型预测结果的准确度降低。因此,有学者通过在Logistic回归模型的
·86·统计研究2021年5月
对数似然函数中增加非负惩罚项来控制变量的系数,达到修正模型的目的,本文介绍一种应用广泛的LASSO方法。
(二)LASSO-logistic回归模型
LASSO方法是在优化传统目标函数的基础上添加惩罚项以达到产生稀疏解的目的,避免因为解释变量过多导致的过度拟合的问题。假设有n只独立的股票收益观测样本值为(X i,t,y i,t),i=
1,…,n,其中X
i,t =(x
i,1,t
,…,x
i,J,t
习惯的是是非非)是模型的解释变量,代表第i只股票的J个不同属性变量的观
测值,y i,t∈{0,1}是被解释变量。LASSO-logistic回归模型的系数估计值β^LASSO
t
可以表示为:
β^LASSO t =argmin
β
∑n
i=1
y
纹身图片男
i,t
(β
0,t
+∑J
j=1
x
i,j,t-1
βj,t
{)
-log1+exp(β
什么动物最好养0,t
+∑J
j=1
x
i,j,t-1
βj,t
[]}
)+λ
集显是什么意思
t∑
J
j=1
βj,t(3)
λt是非负的正则化参数也称作调节参数,它可以灵活地控制惩罚项λt∑J j=1βj,t对模型的影响。LASSO-logistic回归模型实现变量选择的重点就是确定一个合适的调节参数λt,它必须在偏差和方差之间进行权衡,以最大程度减小误分类的错误。本文使用交叉验证方法来设定调节参数λt。
(三)组合LASSO-logistic方法
在本文的研究中,采用组合预测方法的思想来预测上市公司的股票收益。公司特征变量的任意子集都代表一个子模型,可以基于子模型对股票收益进行预测。考虑到特征变量的数目较多会产生较多的子模型,Lan等(2018)发现单变量模型在高维回归中也得到了不错的预测结果,本文使用简单有效的单变量Logistic回归模型。另一方面,考虑到股票市场数据具有时变特征,在每个时间节点上变量的重要性会有较大的差异。本文在每个节点将单变量模型的预测值作为解释变量,通过LASSO方法来选择重要的模型,并采用该变量选择方法、选择的变量数目来构建等权重平均的组合预测方法,以此提升组合预测方法的表现,并实现实时追踪股票市场时变特征的溢价目的。
在本文的研究中,组合LASSO-logistic预测方法可以通过以下两个步骤具体实施:
第一步,使用41个影响股票横截面预期收益的公司特征变量,逐月分别进行股票预期收益涨跌概率的预测,则第(t+1)月第j个公司特征变量的股票横截面收益概率的预测值可由式(4)计算:
p^(j)
i,t+1|t (y(j)
i,t+1|t
=1|X
i,j,t
)=
exp(β^
0,j,t
+X
i,j,t
β^j,t)
1+exp(β^
0,j,t
+X
i,j,t
β^j,t)
p^(j)
i,t+1|t (y(j)
i,t+1|t
=0|X
i,j,t
)=1-p^(j)
i,t+1|t
(y(j)
i,t+1|t
=1|X
i,j,t
)
(4)
其中,i=1,…,n;j=1,…,J。
若p^(j)i,t+1|t(y(j)i,t+1|t=1|X i,j,t)>0.5,记为y(j)i,t+1|t=1;若p^(j)i,t+1|t(y(j)i,t+1|t=1|X i,j,t)≤0.5,记为y(j)
i,t+1|t
=0。
普通的组合预测方法就是先计算单个公司特征变量的收益预测值,然后根据公司特征变量的数目等权重计算所有单变量模型预测的平均值,得到的组合预测结果如式(5)所示:
p^Mean i,t+1|t =
1
^奇迹造句
t
∑
j ∈^t
p^(j)
i,t+1|t
(5)
在式(5)中,p^(j)i,t+1|t代表第i只股票由第j个公司特征变量所估计的股票预期收益被分配到“上涨”或“下跌”的概率值,它可以反映单变量对股票预期收益趋势的预测值,^t {1,…,J}代表所有