欢迎光临散文网 会员登陆 & 注册

期货量化软件:赫兹量化系统直推和主动机器学习中的梯度提升

2023-10-13 14:39 作者:大牛啊呢  | 我要投稿

半监督学习或直推学习使用未标记的数据,使模型能够更好地理解一般的数据结构。这和我们的思考方法很相似。只要记住一些图像,人脑就能够把这些图像的知识概括地外推到新的物体上,而不必关注无关紧要的细节。这样可以减少过度拟合,并获得更好的泛化效果。

直推是由支持向量机(SVM)的共同发明者弗拉基米尔·瓦普尼克(Vladimir Vapnik)提出的。他认为,直推比归纳法更可取,因为归纳法需要先解决更一般的问题(推断函数),然后再解决更具体的问题(计算新案例的输出)。

"在解决感兴趣的问题时,不要把解决更一般的问题作为中间步骤。试着得到你真正需要的答案,而不是更笼统的答案。"

瓦普尼克的这一假设与伯特兰·罗素(Bertrand Russell)早些时候的观察结果相似:

"我们将得出这样一个结论:苏格拉底是凡人,如果我们把我们的论证纯粹归纳起来,而不是用“人人都是凡人”的方式,然后用演绎的方式,那么苏格拉底就更接近于确定性".


从长远来看,无监督学习(使用未标记的数据)将变得更加重要。无监督学习通常是人和动物的典型特征:他们通过观察发现世界的结构,而不是通过识别每个物体的名称。

因此,半监督学习结合了这两个过程:监督学习发生在少量的标记数据上,然后模型将其知识外推到一个大的未标记区域。

使用未标记数据意味着与底层数据分布有某种联系

主动学习是半监督学习的某种逻辑延续,它是一个迭代的过程,以这样一种方式标记新数据,从而使分隔类的边界处于最佳位置。

主动学习的主要假设是,学习算法可以选择要学习的数据。与传统方法相比,该方法的训练数据显著减少。这里的传统方法指的是使用标记数据的传统监督学习,这种训练可以称为被动训练。该模型只需对标记数据进行训练,数据越多越好。被动学习中最耗时的问题之一是数据收集和标记。在许多情况下,收集额外数据或适当标记可能会受到限制。

主动学习有三种最流行的场景,其中学习模型将从未标记区域请求新的类实例标签:


  • 成员查询综合. 在这种情况下,模型从某个分布中生成一个实例,该分布对所有示例都是公共的。这可能是一个带有附加噪声的类实例,也可能只是所讨论空间中的一个似是而非的点。这个新点被送到先知(oracle)那里培训,Oracle 是估值函数的传统名称,用于评估模型的给定功能实例的值。

  • 基于流的采样. 根据这个场景,每次检查一个未标记的数据点,然后 Oracle 根据某种信息标准选择是要查询这个点的类标签还是拒绝它。

  • 基于池的采样. 在这个场景中,有大量未标记的示例,就像前面的例子一样,实例是根据信息量从池中选择的,从池中选择信息量最大的实例。这是活跃的学习爱好者中最流行的情景。将对所有未标记的实例进行排序,然后选择信息量最大的实例。

每个场景都可以基于特定的查询策略。如上所述,主动学习和被动学习的主要区别在于基于过去的查询和模型响应从未标记区域查询实例的能力。因此,所有查询都需要某种程度的信息性。


期货量化软件:赫兹量化系统直推和主动机器学习中的梯度提升的评论 (共 条)

分享到微博请遵守国家法律