欢迎光临散文网 会员登陆 & 注册

股票高频特征构建与分析01

2023-06-13 13:48 作者:九十久_  | 我要投稿

我们基于股票高频快照数据进行特征构建与分析,高质量的特征构建是后面进行模型训练,交易策略形成的重要基础。

我们已经将本文用到的全部源数据+源代码+Python环境打包好了,做到开箱即用,一键运行,感兴趣的朋友可以下载,自己多动手才是学习的最佳途径。在公众号后台回复“高频特征01”获取。

先看一下基础的高频数据样本,这是一份3秒频率的股票快照,包括了最新成交价,成交量,成交额,最高最低价,五档买卖挂单等信息。

我们选取了上证50的成分股及上证50ETF在某一天的数据进行分析,自变量是我们要构建的特征,因变量是我们要预测的目标。这里我们的目标是预测股票下一分钟的收益率。

先通过3秒快照的最新价,计算得到每个3秒快照的对数收益率,再对3秒的对数收益率进行20个时间窗口的滚动加和,得到pre_rtn20, 就是过去20个快照的收益率,将这个收益率向后平移20个快照,得到fut_rtn20,就是每个快照的1分钟后的收益率,也就是我们要预测的目标。

我们将过去20个快照的收益率pre_rtn20作为自变量,看看股票过去1分钟收益率和未来1分钟收益率之间的关系。

code_tick['rtn'] = code_tick['price'].apply(np.log).diff().fillna(0)
code_tick['pre_rtn20'] = code_tick['rtn'].rolling(window=20).sum().fillna(0)
rtn20 = np.array(code_tick['pre_rtn20'])
code_tick['fut_rtn20'] = 0
code_tick['fut_rtn20'].iloc[:-20] = rtn20[20:]

先看看因子的分布情况:

特征与目标的相关性(略成负相关):

再做一个OLS回归分析,结果如下

OLS(Ordinary Least Squares)回归是一种线性回归分析方法,用于建立因变量与一个或多个自变量之间的关系。在进行OLS回归时,通常会输出OLS Regression Results,其中包含了许多指标,用于评估回归模型的质量和拟合程度。以下是OLS Regression Results的各项指标的解释:

1. R-squared(R平方):R平方是一个介于0和1之间的值,表示因变量的方差中有多少可以被自变量解释。当R平方为1时,表示自变量完全解释了因变量的变异;当R平方为0时,表示自变量无法解释因变量的变异。

2. Adj. R-squared(调整R平方):调整R平方是在R平方的基础上进行了调整,以考虑模型中自变量的数量。当自变量的数量增加时,R平方会自然增加,但这并不意味着模型的拟合程度更好。调整R平方通过惩罚自变量的数量,可以更准确地评估模型的拟合程度。

3. F-statistic(F统计量):F统计量用于检验模型中所有自变量是否显著影响因变量。F统计量越大,表示自变量越显著地影响因变量。

4. Prob (F-statistic)(P值):P值是F统计量对应的概率值,用于判断F统计量是否显著。一般认为,当P值小于0.05时,F统计量显著。

5. coef(回归系数):回归系数表示自变量对因变量的影响程度。对于一个自变量,回归系数越大,表示该自变量对因变量的影响越大;对于一个截距项,回归系数表示在所有自变量为0时,因变量的期望值。

6. std err(标准误差):标准误差表示回归系数的不确定性。标准误差越小,表示回归系数越可靠。

7. t(t值):t值是回归系数与其标准误差之比,用于检验回归系数是否显著。一般认为,当t值的绝对值大于1.96时,回归系数显著。

8. P>|t|(P值):P值是t值对应的概率值,用于判断t值是否显著。一般认为,当P值小于0.05时,t值显著。

9. [0.025 0.975](置信区间):置信区间表示回归系数的真实值有95%的概率在这个区间内。一般来说,置信区间越窄,表示回归系数越可靠。

10. Omnibus(奥姆尼布斯检验):奥姆尼布斯检验用于检验模型的误差项是否服从正态分布。当Omnibus的值越接近0,表示误差项越接近正态分布,模型的拟合程度越好。

11. Prob(Omnibus)(P值):P值是奥姆尼布斯检验的概率值,用于判断误差项是否服从正态分布。一般认为,当P值小于0.05时,误差项不服从正态分布。

12. Skew(偏度):偏度表示误差项分布的偏斜程度。当偏度为0时,表示误差项分布对称;当偏度大于0时,表示误差项分布右偏;当偏度小于0时,表示误差项分布左偏。

13. Kurtosis(峰度):峰度表示误差项分布的峰态程度。当峰度为0时,表示误差项分布与正态分布相同;当峰度大于0时,表示误差项分布更尖锐;当峰度小于0时,表示误差项分布更平缓。

14. Durbin-Watson(杜宾-沃森检验):杜宾-沃森检验用于检验误差项之间是否存在自相关。当Durbin-Watson的值接近2时,表示误差项之间不存在自相关;当Durbin-Watson的值小于2时,表示存在正向自相关;当Durbin-Watson的值大于2时,表示存在负向自相关。

以上是OLS Regression Results的各项指标的解释。这些指标可以帮助我们评估回归模型的质量和拟合程度,并进行进一步的统计分析和推断。


本文以一个最简单的特征(过去1分钟收益率)为例,对特征进行初步的描述和分析,后面我们会继续构建更丰富的特征,并进行分析和训练。


我们已经将本文用到的全部源数据+源代码+Python环境打包好了,做到开箱即用,一键运行,感兴趣的朋友可以下载,自己多动手才是学习的最佳途径。

在公众号后台回复“高频特征01”获取。

股票高频特征构建与分析01的评论 (共 条)

分享到微博请遵守国家法律