欢迎光临散文网 会员登陆 & 注册

关于数据集的一些解答~

2023-04-10 13:02 作者:西二旗小诸葛  | 我要投稿

大家好久不见啦,不知道大家的量化策略建立的怎么样啦

这个专栏主要回答一些朋友关于数据集的疑问。有朋友私信我:既然验证集和测试集都不会用于训练模型,都用于检验模型性能,那么为啥还需要两个集合呢?

其实验证集和测试集这种划分,大多存在于实验场景下验证模型性能。验证集用于选择模型,测试集用于检验选择出来的模型的性能。

结合实际场景的话,就不是特别需要验证集、测试集这种划分方式。因为实际场景中的数据就是测试集,我们在建模过程中,只需要划分训练集和验证集就足够啦。

就拿我们希望做到的事情为例,我们希望用历史数据去构建一个量化模型,指导我们的交易。我们划分训练数据A来训练模型,在用一部分验证数据B来检验模型性能。最后,我们根据模型在验证数据上的性能选出符合预期的模型,在实际场景中测试它的性能。在上述过程中,A毫无疑问是训练集,B是验证集,这二者都是实验场景下的。测试数据是实际场景中的数据。

一句话总结验证集和测试集的区别:验证集是(被视为)实验场景下的测试集,测试集是(被视为)实际场景中的测试集。

如果大家要检验模型性能,一定要在实际场景中测试~

放两张图,祝大家一路长红~


关于数据集的一些解答~的评论 (共 条)

分享到微博请遵守国家法律