==>> 点击下载文档 |
广义线性模型的构建和回测
广义线性模型的构建包括特征和标签提取、特征预处理、训练集合成和滚
动训练等步骤。最终在每个月底可以产生对全部个股下期收益的预测值,
也可以将广义线性模型看作一个因子合成模型,即在每个月底将因子池中
所有因子合成为一个“因子”。我们对该模型合成的这个“因子”进行分层
回测,随后根据模型构建出基于沪深300行业中性、中证500行业中性和
不做行业中性的选股策略。根据模型回测结果以及测试集IC或正确率对模
型进行评价
对滚动训练集长度等重要参数进行参数敏感性分析
我们对线性回归模型的滚动训练集长度、主成分分析选取的主成分个数和
训练集样本量进行参数敏感性分析。结果表明滚动训练集长度为12~24个
月时回测效果较好;主成分分析保留的成分越多,回测效果越好;选取全
部样本在沪深300行业中性基准下表现最好,选取前后排名20%的样本在
中证500行业中性基准下表现最好
正则化对选股效果没有明显的提升
正则化对选股效果没有明显的提升作用。岭回归、Lasso回归和弹性网络
的表现和线性回归类似。可能的原因是样本的所有特征都是已被证明有效
的因子,不存在使用正则化筛选有效因子的必要。其次预处理过程中包含
去极值和标准化等步骤,减少了极端样本的出现概率,进一步削弱正则化
的价值
逻辑回归和随机梯度下降分类器(SGD)的表现优于线性回归
将回归问题转换为分类问题能够提升模型表现。逻辑回归、SGD + hinge
损失函数、SGD + modified Huber损失函数这三个分类器的回测效果均优
于传统的线性回归模型。三者之中又以SGD + hinge损失模型表现最佳,
以中证500作为行业中性基准,每个行业选10~15只个股的策略,信息比
率和Calmar比率均在4左右,超额收益最大回撤在5%左右。三种分类器
之所以优于线性回归,可能的原因是对原始收益率进行二值化处理后,在
损失部分信息的同时消除了大量噪音,使得模型能够更准确地捕捉数据中
蕴含的规律
风险提示:广义线性模型是历史经验的总结,存在失效的可能
相关研究
金工研究/深度研究 | 2017年06月22日
谨请参阅尾页重要声明及华泰证券股票和行业评级标准 2
正文目录
本文研究导读 ........... 4
广义线性模型 ........... 5
线性模型回顾 .... 5
线性回归 ... 5
逻辑回归 ... 5
线性支持向量机 ..... 6
正则化 .. 6
损失函数........... 7
优化算法........... 8
梯度下降 ... 8
随机梯度下降....... 10
测试流程.... 12
广义线性模型构建 ....... 12
分层模型回测 .. 14
模型测试结果与参数选择 .... 15
线性回归模型分层回测分析 ...... 15
利用线性回归模型构建选股策略 ........... 20
线性回归模型参数敏感性分析... 22
训练集长度 .......... 22
主成分分析 .......... 23
训练集样本量....... 25
正则化方法比较........... 27
逻辑回归和随机梯度下降法比较 ........... 29
利用随机梯度下降法 + hinge损失模型构建选股策略 ..... 31
总结和展望 ..... 32
图表目录
图表1: 常用线性损失函数示意图 .... 8
图表2: 二维损失函数示意图 .......... 9
图表3: 梯度下降法(左)和随机梯度下降法(右)示意图 . 11
图表4: 广义线性模型构建示意图 .. 12
图表5: 选股模型中涉及的全部因子及其描述 ......... 13
图表6: 全部测试模型一览14
图表7: 单因子分层测试法示意图 .. 14
图表8: 线性回归模型分层组合绩效分析(20070131~20170531)16
图表9: 线性回归模型分层组合回测净值 .... 16
图表10: 线性回归模型各层组合净值除以基准组合净值示意图 ........ 16
金工研究/深度研究 | 2017年06月22日
谨请参阅尾页重要声明及华泰证券股票和行业评级标准 3
图表11: 线性回归模型分层组合1相对沪深300月超额收益分布图 . 16
图表12: 线性回归模型多空组合月收益率及累积收益率 ...... 16
图表13: 线性回归模型组合在不同年份的收益及排名分析(分十层) .......... 16
图表14: 不同市值区间线性回归模型组合绩效指标对比图(分十层) .......... 17
图表15: 不同行业线性回归模型分层组合绩效分析(分五层) ........ 17
图表16: 线性回归模型训练集IC值 .......... 18
图表17: 线性回归模型测试集IC值 .......... 18
图表18: 线性回归模型训练集每期因子拟合权重示意图 ...... 18
图表19: 线性回归模型对于下期收益预期值与本期因子值之间相关系数示意图......... 19
图表20: 线性回归模型参数选择分析表(回测期:20070131~20170531). 20
图表21: 线性回归模型结合沪深300行业中性策略表现(每个行业选2只个股)..... 21
图表22: 线性回归模型结合中证500行业中性策略表现(每个行业选2只个股)..... 21
图表23: 线性回归模型等权策略表现(每期选75只个股等权配置,以中证500为基准)
..... 21
图表24: 线性回归模型参数敏感性分析详细指标列表(训练集长度) .......... 22
图表25: 线性回归模型参数敏感性分析——重要指标对比(训练集长度) ... 23
图表26: 线性回归模型参数敏感性分析详细指标列表(主成分分析) .......... 24
图表27: 线性回归模型参数敏感性分析——重要指标对比(主成分分析) ... 25
图表28: 线性回归模型参数敏感性分析详细指标列表(训练集样本量)....... 26
图表29: 线性回归模型参数敏感性分析——重要指标对比(训练集样本量)27
图表30: 不同正则化方法详细指标比较 ..... 28
图表31: 不同正则化方法重要指标对比 ..... 29
图表32: 逻辑回归和SGD详细指标比较 ... 30
图表33: 逻辑回归和SGD模型重要指标对比 ........ 31
图表34: SGD+hinge损失模型结合沪深300行业中性策略表现(每个行业选2只个股)
..... 31
图表35: SGD+hinge损失模型结合中证500行业中性策略表现(每个行业选8只个股)
..... 32
图表36: SGD+hinge损失模型等权策略表现(每期选125只个股等权配置,以中证500
为基准).... 32
金工研究/深度研究 | 2017年06月22日
谨请参阅尾页重要声明及华泰证券股票和行业评级标准 4
本文研究导读
经典的多因子模型表达式为:
多因子模型的本质是关于股票当期因子暴露和未来收益之间的线性回归模型。我们希望引
入机器学习的思想,对传统多因子模型进行优化,最自然的想法正是从简单的线性模型入
手。上式显示的就是比较流行的多元线性回归模型,是多因子模型中最常用的数学分析工
具。然而除了线性回归之外,您是否知道一些常见的机器学习算法也属于广义的线性模型?
本文中,我们试图采用统一的视角解释与测试所有的广义线性模型,并分析它们应用于多
因子选股的异同,希望对本领域的投资者产生有实用意义的参考价值
本文主要关注并讨论了广义线性模型的如下几个环节:
1. 首先是模型选择的问题。除了传统的线性回归之外,逻辑回归、线性支持向量机等方
法同属于广义的线性模型,在业界有着相当广泛的应用。这些方法能否对多因子选股
的效果有进一步的提升?
2. 其次是正则化的问题。传统的线性回归模型中,在拟合回归方程这一步,我们不对参
数的取值范围做任何限定。然而在机器学习领域,最普遍的做法是引入正则化,对参
数的选择加以限制,防止过拟合的发生。现在流行的岭回归、Lasso回归和弹性网络
方法,正是将不同正则化方法和线性回归结合起来的产物。那么,在多因子选股模型
中,正则化是否有助于提升选股效果?
3. 再次是预处理方法的问题。在多元线性回归中,因子共线性是需要尽力避免的问题
消除因子共线性的方法之一是对多元变量做主成分分析,得到一组新的共线性程度较
小的变量。在多因子选股模型中,我们关心主成分分析是否有效,对模型有多大的提
升作用?
4. 最后是模型参数的问题。多因子选股模型中包含一系列自由参数。例如,对于T+1期
因子预期收益的估计通常需回溯前N期的历史收益,N的取值多少最为合理?又如选
择不同正则化系数、不同损失函数,最终的选股效果是否存在差别?
我们将围绕以上的问题进行系统性的测试,希望为读者提供一些扎实的证据,并寻找到最
优的线性模型,为后续的非线性机器学习方法做铺垫
。。。以上简介无排版格式,详细内容请下载查看