粗糙路径理论——价格序列降维利器

更新时间:2023-07-05 00:01:53 阅读: 评论:0

粗糙路径理论——价格序列降维利器
作者:⽯川,量信投资创始合伙⼈,清华⼤学学⼠、硕⼠,⿇省理⼯学院博⼠;精通各种概率模型和统计⽅法,擅长不确定性随机系统的建模及优化。
1
引⾔
机器学习中的有监督学习算法时常被⽤来预测投资品的价格⾛势。以此为⽬的建模时,训练集数据的特征(features)选择格外重要。我们希望找到最能捕捉价格⾛势的特征,但如果特征维数太⾼⼜容易造成过拟合以及计算效率的问题。当直接使⽤投资品的价格信息作为输⼊时,训练出来的模型效果往往很差,这是因为价格信息的维数太⾼了。
以⽇线为例,假如我们想使⽤过去 n 个交易⽇的⽇频 K 线建模,预测下⼀个交易⽇的涨跌。由于每个 K 线有 Open、High、Low 和Clo 四个价格,那么这 n 个 K 线的输⼊维数就是 4n。当 n = 20 时,这个模型的输⼊维数就⾼达 80。如果我们采⽤⾮线性的有监督学习算法(⽐如⾮线性核的⽀持向量机),那么维数更会呈指数增长。使⽤如此多的特征建模,样本内很容易出现过拟合,模型在样本外的预测准确性会⾮常低。在构建这类模型时,对输⼊特征的有效降维⾄关重要。
我们熟悉的各种技术指标其实就是降维。技术指标对价格数据⾼度提炼、降噪,以期捕捉到⼀些更泛化的信息。基于技术指标的技术分析策略能赚钱说明使⽤技术指标降维可以在⼀定程度上捕捉价格运动的内在规律。
今天我们就来介绍另⼀种捕捉价格⾛势内在规律的⽅法 ——粗糙路径理论(rough path theory)。它的本质是通过计算路径签名(signature of a path)来对路径的信息降维,并使⽤签名代替路径本⾝作为机器学习模型的输⼊特征。本⽂就来揭开它神秘的⾯纱。
2
粗糙路径理论和路径签名
粗糙路径理论发展⾃上世纪 90 年代(Lyons 1998)。顾名思义,它研究的对象是粗糙路径(rough path)。这⾥,“粗糙”指的是路径虽然连续,但是处处剧烈波动。⽐如布朗运动产⽣的路径就是“粗糙的”,它虽然连续但是处处不可微分。投资品的价格⾛势可谓名副其实的粗糙路径。
在粗糙路径理论中,最核⼼的概念就是路径签名。这个“签名”就是⼀个映射函数(mapping),它将原始路径信息转换成⼀组实数集合。集合中的每⼀个实数都是通过原始路径中的数据点以不同的⽅式计算⽽来,代表着原始路径的某⼀个⼏何特征。理论上,⼀个路径的签名
是“⽆穷维”的。在实际使⽤中,我们只使⽤有限个维数的签名(即实数集合中的实数个数有限),这样的签名称为截断签名(truncated signature)。使⽤截断签名来代替原始⾼维路径的数据信息便是对其进⾏降维。
计算粗糙路径的(截断)签名需要⽤到张量代数(Tensor algebra),⼗分复杂,本⽂不加赘述。假设原始路径是 n × N 维的,它的签名是通过将这个路径不断的向其原始的 n 维坐标系上投影得到的。下⾯以 n = 2 为例说明如何求解⼀个路径的(截断)签名。假设⼀个⼆维粗糙路径如下图所⽰。
你见或者不见我
它的 2 阶截断签名 S 是由 7 个实数构成的集合:
这 7 个实数的⼏何意义总结如下:
其中,S^(1,2) 和 S^(2,1) 表⽰该路径按特定形式与坐标轴构成的区域的⾯积,如下图所⽰。
⽤⼀句话总结来说,这个 2 阶截断签名中的 7 个数每个都有明确的⼏何含义,并且由原始粗糙路径计算⽽来;这 7 个数构成的签名是对原始路径信息的⾼度概括。
当我们⽤签名代替原始路径作为输⼊特征时,⼀个必须要搞清楚的前提是:签名和路径是⼀⼀对应的吗?路径可以有千千万万,如果不同的路径有相似的签名,那么⽤签名代替路径的效果就要打折扣了。另外,不要忘了,我们使⽤的是截断签名中,它更是舍弃了⾼阶的信息。即便⾮截断签名和路径⼀⼀对应,截断签名⼜是否能很好的描述原始路径呢?
好消息是,数学上可以证明粗糙路径的签名是唯⼀的,因此签名很好的反应了原始路径的信息。那么,截断签名怎么样呢?事实上,⾼阶签名所包含的信息量按照阶数的阶乘衰减(factorial decay)。
这意味着⾼阶签名包含的信息较低阶签名来说可以忽略不计,因此即便是使⽤低阶的截断签名,我们也可以预期它有效的保留了原始路径的信息。在上⾯这个例⼦当中,原始的路径就可以由它的截断签名 表⽰。
3
领先 —— 滞后变形
截断签名是对原始粗糙路径的有效降维。这为我们使⽤它进⾏投资品价格数据分析打下了良好的基础。不过在这之前,还需要做⼀步铺垫。
spellman投资品的价格时间序列对原始“未知路径”按⼀种特定频率的采样。当使⽤最⾼频率采样时,得到的就是 tick 数据;当使⽤ 1 分钟频率采样时,得到的就是 1 分钟 K 线数据;当使⽤⽇频采样时,得到的就是⽇频 K 线数据,以此类推。换句话说,我们的价格数据仅仅是⼀些列来⾃未知路径的离散点,它们并不是连续的。粗糙路径虽然处处⾼波动,但它是连续的。因此,在使⽤签名分析价格时,必须先将离散的价格时间序列转化为连续的路径。
在这⽅⾯,⼀个常见的⽅法是领先 —— 滞后变形(lead-lag transformation)。假设 t_0,t_1,…,t_N 为 N 个离散时间点,定义在之上的价格序列为 , i = 0,1,…,N,该变形的定义如下:
caster什么意思
从图形上直观的来说,该变形将原来 N 个价格序列转变为个数为 2N 的新序列。在这个新序列中,每个点由⼀对⼉领先价格(X^Lead)和滞后价格(X^Lag)来表⽰。在这个新序列中的第 0,2,…,2N 这些序列标号为偶数的点上,X^Lead 和 X^Lag 的取值就是原始序列中的 X_;在这个新序列中的第 1,3,…,2N - 1 这些序列标号为奇数的点上,第 j(某奇数)个点的 X^Lead 取值等于第 j + 1 个点的X^Lead 值,⽽它的 X^Lag 取值等于第 j - 1 个点的 X^Lag 值。如果我们⽐较这 2N 个点的 X^Lead 和 X^Lag 序列,不难发现 X^Lag 永远⽐ X^Lead 落后⼀位;这便解释了为什么它们有“领先”和“滞后”之分。这 2N 个由 两两配对⼉构成的新序列就是对原始离散价格时间序列的连续化处理,将其转化为⼀个连续的路径。下图为上证指数在 2016 年 7 ⽉内收盘价的⽇数据和通过领先 —— 滞后变形产⽣的连续路径。
为什么要采⽤如此变化得到路径呢?对于投资品价格这种粗糙路径来说,由于其剧烈的波动,它的⼆
二次函数顶点公式
次变分不为零,这个数学上的特性反映着价格变化中⾮常重要的性质(见《布朗运动、伊藤引理、BS 公式(前篇)》)。因此,我们希望路径签名也能反映原始轨迹⾮零⼆次变分的特征。通过领先 —— 滞后变形得到的路径,并计算其签名,就可以很好的捕捉到原始价格序列的⼆次变分。
好了,现在我们已经万事俱备了:对于⼀个投资品价格序列,⾸先应⽤领先 —— 滞后变形将其转换为连续路径;然后计算截断签名对该路径降维;最后使⽤该签名作为特征输⼊到机器学习算法中建模。下⾯就来看⼀个简单的应⽤。
4
应⽤举例
本节介绍⼀个使⽤路径签名分析价格规律的例⼦。我们的⽬的并⾮构建⼀个策略(坦⽩说,使⽤粗糙路径理论构建出能挣钱的策略⼤概尚需时⽇),⽽是为了说明路径签名确实能够反应出价格的某些内在规律。
A 股中有不同的板块,虽然不同的板块在绝⼤多数时候相关度⾮常⾼,但是在某些特定的时期还是存在明显的分化。⽐如在 2013 年,创业板就⾛出了独⽴⾏情。因此,我们猜测在这个时间内,属于创业板的股票的价格和其他版块的股票的价格就有不同的内在规律。下⾯就来简单验证看看。
考虑来⾃上交所和创业板的 336 ⽀股票(其中上交所 220 ⽀,创业板 136 ⽀),使⽤它们在 2013 年 1 ⽉ 1 ⽇到 2014 年 1 ⽉ 1 ⽇期间的⽇数据作为各⾃的原始价格序列(⽤各⾃的最⼤值进⾏标准化)。经过领先 —— 滞后变形后得到各⾃的连续路径,并选择阶数 3 计算路径签名(签名维数为 14)。之后,将这 336 ⽀股票打乱顺序,随机挑选 220 ⽀作为训练集,剩余 136 ⽀作为测试集。选择题口诀
我们希望通过训练集构建⼀个分类模型。该分类模型使⽤训练集中股票的路径签名作为输⼊,以股票的出处(即上交所或创业板)作为标签,挖掘输⼊和标签之间的关系:
其中 Y_i 是第 i ⽀股票的标签,X_i 是第 i ⽀股票的原始价格序列,S(X_i) 是它的路径签名,f 则是我们希望通过机器学习拟合出来的函数。数学上的相关定理(Levin et al. 2016)指出,线性⽅程就可以很好的满⾜我们的⽬标,因此在本例中我们采⽤线性回归作为机器学习的算法。
使⽤训练集的 220 ⽀股票建模。之后,使⽤该模型对测试集中的 136 ⽀股票分类,并将模型分类结果和真实类别⽐较。该判断该模型在样本外的准确性为 84.56%。让我们从准确率和召回率两⽅⾯进⼀步评价。该模型在测试集上的分类结果如下表所⽰。
strand从上⾯的结果可知,对于猜上交所的预测来说,其准确率为 83.90%,召回率为 91.25%;对于猜创业板的预测来说,其准确率为
85.71%,召回率为 75%。可见,对于这两类股票中,该模型在样本外均有不错的表现。这说明使⽤路径签名有效的捕捉了不同板块中股票价格的内在运动规律,它作为机器学习算法的输⼊是合适的。
5
结语
上海出国本⽂介绍了粗糙路径理论及其在分析投资品价格⾛势⽅⾯的应⽤。对于⼀个成功的机器学习应⽤来说,找寻合适的输⼊特征是最重要的⼀步。特征的维数不能过⾼,且需要最⼤可能的保存原始数据的信息。举例来说,如果我们想建模对⼈的性别进⾏分类,我们可以采⽤任何和⼈相关的属性,⽐如⾝⾼或者肤⾊。显然,⾝⾼就⽐肤⾊更有效,因为男性较⼥性更⾼,但每个肤⾊中的男⼥⽐例都差不多。
在当下流⾏⼈⼯智能卷积神经⽹络中,池化(pooling)就是为了减少特征的维数。在分类领域,有⼀个著名的概念叫做维数灾难(cur of dimensionality):分类器的性能随着特征个数的变化不断增加,过了某⼀个值后,性能不升反降(下图,横坐标是维数,纵坐标是分类器的表现)。
gre网上查分对于分析价格序列来说,如何给数据降维⾃然是重中之重。粗糙路径的截断签名通过有限个具备明确⼏何意义的实数,有效的捕捉了原始序列的信息、降低了特征的维数,这是它对于后续机器学习建模的最⼤价值。
参考⽂献
carrot的音标Lyons, T. (1998). Differential equations driven by rough signals.Revista Matemática Iberoamericana, Vol. 14(2), 215 – 310.
south是什么意思

本文发布于:2023-07-05 00:01:53,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/167267.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:路径   签名   价格   原始   序列   模型   特征
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图