欢迎光临散文网 会员登陆 & 注册

【PYTHON】金融实证分析 6 因子处理、分析

2023-02-26 18:38 作者:然后是没有然后  | 我要投稿

仅为个人学习金融实证所用。本文目标是研究A股市场的MAX异象。


去极值部分

常常在我们拿到因子数据发现一些数值太过极端,与整体数据格格不入,导致数据统计指标失真,这些极端数据称为离群值,大多数的参数统计数值,如均值、标准差、相关系数 等,以及基于这些参数的统计分析,均对离群值高度敏感。因此,离群值的存在会对数据分析造成极大影响。

在因子处理过程中都会遇到这个问题,去极值的好处是可以消除因子极值对因子实际效果造成的不必要的影响 常见的方法有百分位去极值、标准化去极值、中位数去极值

  • 百分位去极值:直接以上下百分位为边界,将边界外数据归为边界上数据,一般不使用。

  • 标准化去极值:又称为标准差法。标准差本身可以体现因子的离散程度,是基于因子的平均值 Xmean而定的。在离群值处理过程中,可通过用 Xmean±nσ来衡量因子与平均值的距离。 标准差法处理的逻辑与MAD法类似,首先计算出因子的平均值与标准差,其次确认参数 n(这里选定 n = 3,3个标准差以内概率为99.73%),从而确认因子值的合理范围为 [Xmean−nσ,Xmean nσ]

    还有其他去极值法不多赘述。

目录:

分析(1)准备工作

分析(2)描述性统计

分析(3)相关性分析

分析(4)直方图、散点图(IV、IS等因子)

分析(5)缩尾处理(去极值)


分析(1)准备工作

首先读取数据,并将数据合并。

好像差了点东西

分析(2)描述性统计

合并的数据缺少了股票的月末价格Price、市值、账面市值比BM,等之后再补上。缺少的这几个数据还是很关键的,光上面这个图看不出什么东西来。

分析(3)相关性分析

首先是pearson相关性分析

最大日收益MAX与特质波动率IV相关度达到了78.2%,相关程度很高,其次就是动量MOM相关度38.3%,动量与MAX异象也可能存在相关关系。

然后是spearman相关性分析。

IV、IS的相关性升高,MOM的相关性略降,后续会重点分析这三个因子对MAX异象的影响。

分析(4)直方图、散点图

IV:

上面这个图看起来不方便,稍稍改动。

IS:

beta:

ILLIQ:

MAX:

MOM:

REV:

以上的所有分析都是没有经过缩尾处理的,可以看到会有个别因子数据偏离程度较大,为了不让这部分数据影响分析,要去除这些离群值。

分析(5)缩尾处理(去极值)

下面是百分位去极值(不好用


标准差去极值法:

IV:


IS:


beta:


ILLIQ:


MAX:


MOM:


REV:

处理之后的描述性统计,相关性分析:

缺少的价格、市值、BM后面补上。。。


【PYTHON】金融实证分析 6 因子处理、分析的评论 (共 条)

分享到微博请遵守国家法律