关于数据集的一些解答~
大家好久不见啦,不知道大家的量化策略建立的怎么样啦
这个专栏主要回答一些朋友关于数据集的疑问。有朋友私信我:既然验证集和测试集都不会用于训练模型,都用于检验模型性能,那么为啥还需要两个集合呢?
其实验证集和测试集这种划分,大多存在于实验场景下验证模型性能。验证集用于选择模型,测试集用于检验选择出来的模型的性能。
结合实际场景的话,就不是特别需要验证集、测试集这种划分方式。因为实际场景中的数据就是测试集,我们在建模过程中,只需要划分训练集和验证集就足够啦。
就拿我们希望做到的事情为例,我们希望用历史数据去构建一个量化模型,指导我们的交易。我们划分训练数据A来训练模型,在用一部分验证数据B来检验模型性能。最后,我们根据模型在验证数据上的性能选出符合预期的模型,在实际场景中测试它的性能。在上述过程中,A毫无疑问是训练集,B是验证集,这二者都是实验场景下的。测试数据是实际场景中的数据。
一句话总结验证集和测试集的区别:验证集是(被视为)实验场景下的测试集,测试集是(被视为)实际场景中的测试集。
如果大家要检验模型性能,一定要在实际场景中测试~
放两张图,祝大家一路长红~

