欢迎光临散文网 会员登陆 & 注册

量化交易软件:分析指标统计参数

2023-08-01 15:21 作者:bili_45793681098  | 我要投稿

简介

交易者中广泛使用那些能够“更清楚”显示基本报价的指标,从而能够让他们执行分析并预测市场价格变动。转换有效性与所得结果可信度的相关问题通常不予考虑,最多也就是替换成基于指标的交易系统测试。

我很清楚,除非我们可以解决初始报价转换以及所得结果可信度的相关问题,否则使用这些指标没什么意义,更不用说将其应用于交易系统的创建了。赫兹量化将在本文中讲述,得出这样一个结论,是经过严格推理的。赫兹量化会利用三个指标来研究潜在问题:趋势直线、指数移动平均线及 霍德里克-普雷斯科特过滤器

编辑切换为居中

1. 理论浅析

为方便读者,我会讲述一些以后将用到的概率理论与数学统计学方面的术语。我不会提供链接,因为这里用到的术语,与教科书中的概念完全一致。

1.1. 经济观察的概率描述

赫兹量化观察的报价是某些基本随机过程的间接选择性测量值(总数量未知),其中包括:

  • 精确测得的确定型分量,比如,已执行的货币买入或卖出交易;

  • 带误差测得的确定型分量,比如在某个时间区间内(如一天)卖出的货币量;

  • 不能测得的随机型分量 - 群体心理。大多数时间里,此分量的主要特性都是带漂移的随机变化。

这些分量的相互作用生成了一个随机过程,其中包括:

  • 趋势(确定型和随机型);

  • 带固定与随机周期长度的循环;

  • 带漂移随机变化。

非定常性是随机过程的一项共有特性,于货币报价中体现。对我们而言,非定常性随机过程的概念之所以重要,就是因为它几乎未提供任何自身的分析方法,所以必须将其划分为一系列可行分析的单独过程。应用指标时,交易者并不考虑指标对于某具体交易品种报价的适用性。但有经济学工具可以评估某指标应用的可能性以及应用结果。



1.2.随机事件。概率

随机事件(本例中为买入和卖出货币)是指可能发生、也可能不发生的事件。赫兹量化都知道,不同日期和一天中不同时间的成交数量都会不同 - 实际上是一个随机值,但最常见的情况却是仅将离散时间点(比如分钟、小时、天等)的事件纳入考虑范围。

随机事件的相对频率是指该事件发生次数 M 与已完成查看总数 N 的比率。随着查看次数的增长(理论上可到无穷大),此频率会越来越接近所谓的随机事件概率数。根据定义,概率是指一个从零到一的值。本文中一般都会用术语“概率”来替代相对频率。

随机值是指一个利用特定概率取不同值的量。

总集代表的是随机可取的所有值。赫兹量化始终是处理市场中总集的一个样本,通常使用某时段的报价。使用样本获取的统计数据当然会与根据总集计算得出的统计数据有所区别,因为相对频率和概率是有区别的。再执行进一步的计算,评估使用样本获取的统计数据与根据总集计算得出的统计数据之间的差异。如是指标,则此方法不可行,因为价格(比如收盘价)在计算期间会被指标视为确定型值。

还观察到另一有趣现象。因为我们要试着观察总集,所以,可以忽略由不同交易中心提交的报价之间的差异,因为更改报价值容易,而更改其统计属性却非常难。


1.3. 随机变量的特性

1.3.1. 描述性统计

随机量集(本例中为货币报价)均以大量的参数为特征。其中某些参数进一步也会用到。

直方图是一种显示随机值频率的图表。极端情况下,它就是一个显示概率分布密度的图表。

算术平均值(平均)是所有观察点的和,除以观察点数量(本例中为时段数量)。它并非适用于所有分布,而最常见的,就是与中间值一致时可用于正态分布。严格来讲,这就意味着,如果报价具有平均值存在所依据的分布法,则可应用最受欢迎的移动平均线指标。

中间值会将一个样本中的所有观察点一分为二:第一种情况下,所有观察点均低于中间值;而在第二种情况下,观察点则高于中间值。任何分布都存在中间值,且对离群值不敏感。如果平均值等于(或近似)中间值,则其为正态分布法特征之一。

偏离平均值是一个非常有趣的问题。离差是从其数学期望值中随机值方差平方的平均值。离差的平方根是一个均方(标准)方差。

标准方差与离差不排斥离群值。

一个名为不对称率(偏斜度)的无量纲量会充当分布密度曲线不对称度的指标。如果偏斜度值小于«6 除以观察点数量»,则随机值的概率分布取决于正态律。

具备分布密度特征的另一值是峰度。通常它都等于 3。如果峰度大于 3,则顶部尖锐,且«厚» 尾以小角度下滑。

可以看出,有大量适用于具有正态分布律的随机变量的概念。也不算太糟糕,因为虽然观察数量值增长了,但却有大量的分布律被变成了正态分布律。

1.3.2. 正态分布

正态(高斯)分布是几乎所有真实概率分布的一种极端情况。

李雅普诺夫的极限定理为理论基础,该定理称:在有观察点丢失且其作用很小的情况下,拥有任何初始分布的独立随机值之和的分布都会是正态的。因此,它被广泛应用于众多的概率理论实际应用中。

正态分布是一个对称的钟形曲线,遍及整个数轴。高斯分布取决于两个参数:μ (数学期望值)和 σ (标准方差)。

数学期望值和给定分布的中间值等于 μ,而离差则等于 σ2。概率密度曲线与数学期望值相对称。不对称率与超出值分别为 γ = 0、ε = 3。

正态分布密度通常不作为 x 变量函数描述,而是作为具有零数学期望值和等于 1 的离差 z = (x − μ) / σ 变量函数来描述。

μ = 0 且 σ = 1 的分布,称为标准正态分布 (i.i.i)。


编辑

图 1. 正态分布

1.3.3. 学生的分布(t-分布)

主参数为自由度(样本中的元素数量)。随着自由度数的增长,学生的分布会渐趋标准化的正态分布。而如果 n > 30,学生的分布可用正态分布替换。如果 n < 30,则学生的分布的尾更厚。


编辑


图 2. 学生的分布

t-统计被广泛应用于统计假设检验。

1.3.4. 卡方(皮尔逊分布)

如果 Хi 是拥有 i.i.i 的独立随机值,则其平方和受 χ2-分布的约束。密度取决于一个单独参数 ν (通常被称为自由度数),与独立随机变量的数量相等。如果自由度数 ν →∞,χ2-分布倾向于具有中心 v 和离差 2ν 的正态分布。分布密度为非对称、单峰型,它还会变得更平,且与渐增的自由度对称。


编辑

图 3. 皮尔逊分布(卡方)

1.3.5. F - 费歇尔分布

费歇尔 F 分布是一种离差关系分布,即两个离差系列的比率。

如果两个独立的随机变量具备带自由度的卡方分布(V1、V2),则其比率具备费歇尔分布。


编辑

图 4. 费歇尔分布


1.3.6. R 平方决定系数

决定系数会显示由独立变量影响解释的结果离差的比例。如是两个变量,则为皮尔逊相关平方。它显示了完全处于这两个变量之间的离差量。

相关比率的显著性,取决于观察点数量和费歇尔 F 统计数据。如果报价中的烛形图数超过 100,即便观察点于零有非常小的偏差,亦足以确认指标的显著性。

1.4. 确定假设

如果我们有该参数的一个选择值,那么就一些常规设置参数,赫兹量化可以得出什么结论?此问题的答案,取决于我们是否拥有关于常规参数大小的先验信息。

如果没有该参数常规量级的相关先验信息,我们则可以利用一个选择值来评估该参数,为其设置置信区间(即范围),其值位于其中,且带有特定的置信概率。

在实际情况中,赫兹量化通常需要检查一些特定的、大多数情况下都是简单的假设But。此假设被视为空。为测试假设,采用 标准以接受或拒绝它。下面列出的各类统计数据,通常都会用作标准:t-统计数据、F-统计数据和卡方统计数据。使用某些特定的统计软件(比如 STATISTICA)或经济学软件(如 EViews),计算得出的标准伴有此标准的显著性值 - p-值。比如说,p-值为 0.02 (2%) 则意味着对应标准于 1% 显著性水平时为不显著,而于 5% 显著性水平时为显著。同样,如果概率等于“1 - p-值”,则可以假设零假设不显著。

p-值为主观选择,由某特定标准错误评估后果的严重性确定。


1.5. 报价统计特征

1.5.1. 描述性统计

描述性统计包括:

  • 一个必须在某报价的烛形量增加时接近分布律的直方图;

  • 主趋势测量值:均值,中值;

  • 离差测量:标准方差;

  • 形态测量:偏斜度与峰度;

  • 雅克-贝拉正态定则。

雅克-贝拉定则。零假设 But:分布为正态。比如说,伴随标准值的概率则等于 0.04。似乎可得出下述结论:零假设接受的概率为 4%。但是不完全对,因为计算得出值是一个标准 p 值,而零假设接受的概率等于 96%。


1.5.2. 自相关与 Q 统计

自相关是对两个变量之间关系的一种测量。相关比率的变化范围为 -1.00 到 +1.00。值 -1.00 是指完全负相关,而值 +1.00 则指完全正相关。值 0.00 是指无相关。

一个报价中各元素之间的相关,被称为自相关。它在寻找趋势时非常有用。自相关的存在,向作为随机变量的报价的所有相关结论提出了挑战。因为确定随机值过程中最重要的因素,就是不同时段时各个价格的独立性。

在统计分析软件中,自相关伴随有带 p-值的 Ljung-Box Q 统计数据。零假设为:自相关不存在,即,如果 p-值等于零,赫兹量化可能得出报价中某限定烛形之前不存在相关的结论。

获取使用数理统计方法功能的过程中,第一步就是从报价中排除自相关(趋势)。


1.5.3. 报价平稳性

如果报价的数学期望值和离差不取决于时间,我们则认定其为平稳。即便这个平稳性定义过于严谨,并且不太适合实际应用。如果某个时间范围内,数学期望值的方差与(或)离差由几个百分点(通常不超过 5%)构成,那么,将报价视为平稳的情况非常常见。

金融市场中的实际报价并不平稳。它们拥有下述方差:

  • 存在一个由期内各个观察点之间的依赖性生成的趋势。依赖性是货币报价与经济观察点共有的一个明显特色;

  • 循环性;

  • 变离差(异方差性);

偏离平稳的报价被称为非定常性。它们均通过连续分解为分量进行分析。一旦得到某平稳序列的平衡,且期望值与(或)离差几乎恒定,该分解过程即终止。

有数项针对报价平稳性的检验。最基本的一类为单位根检验。而其中最著名的,就是迪基-福勒检验。零假设 But:报价非稳定(它们有一个单位根),即平均值与离差取决于时间。因为几乎恒定地取决于时间(某趋势),执行该检验时,必须指出报价中存在的趋势。此阶段要靠眼睛确定。


1.6. 指标规范(回归)

粗略看一下利用 MQL5 等语言编写的指标文本,即可识别其设置的两种形式:分析式(最普遍)和表格式(应用于那些被称作过滤器的指标,比如克拉夫朱克指标)。

但我们会使用“回归”这个术语 - 数理统计学与计量经济学中的一个常用术语。

清楚自己想要从报价中获取什么之后,我们需要设置下述参数,以表示(指标)回归:

  • 用于指标计算的独立变量列表;

  • 独立变量比率;

  • 将用于独立变量计算的指标计算方程。

尽管在创建多货币指标的过程中存在一些困难,但在回归中,这些困难都不复存在。

有了这三个头寸,则有必要调整回归以适应报价。与交易者论坛不同的是, «拟合»一词在计量经济学中并非什么令人不快的词语,而是标准流程,而在这个流程中(指标)回归到报价的一致性,也是利用多种评估方法中的一个计算得出的。普通最小平方法 (OLS) 是已知最佳的评估方法。

评估结果揭示出两个兴趣点:

  • 带报价指标的合规性 – 剩余误差的值;

  • 计算得出的未来回归参数的稳定性。

这些问题的答案,均已在指标诊断期间给出。


1.7. 指标诊断

指标(回归)诊断分为三组:

  • 比率诊断;

  • 余数诊断;

  • 稳定性诊断。

下述每个验证流程中,都包括用作验证假设的零假设规范。验证结果由一个或多个统计数据及其随附 p 值的选择构成。后者会指明零假设条件执行的概率,作为验证统计的基础。

由此,小 p-值会导致零假设拒绝。比如说,如果 p-值位于 0.05 到 0.01 之间,则零假设偏离 5%,而不是 1%。

要注意的是,与每个验证相关的建议和分布结果多种多样。比如说,有些统计具备准确、有限的检验分布(通常为 t 或 F 分布)。其它的则是带有非对称 χ2 分布的检验统计的大样本。


1.7.1. 比率诊断

比率诊断会提供相关信息,并定义已评估比率的限制,其中包括缺失与冗余变量的验证特例。下述回归方程比率的验证会被用到:

  • 置信椭圆允许揭示方程比率之间的相关性;

  • 缺失变量的检验,则允许确定回归方程中额外变量的必要性;

  • 冗余变量检验允许揭示过多变量;

  • 中断检验允许确定回归方程对于趋势变化的反应。需要创建这样一种回归方程,它要能同样擅长体现上升、下降及扁平报价段的报价。


量化交易软件:分析指标统计参数的评论 (共 条)

分享到微博请遵守国家法律