关于数据集的一些解答~

2023-04-10 13:02 作者:西二旗小诸葛 0人读过 | 我要投稿

大家好久不见啦，不知道大家的量化策略建立的怎么样啦

这个专栏主要回答一些朋友关于数据集的疑问。有朋友私信我：既然验证集和测试集都不会用于训练模型，都用于检验模型性能，那么为啥还需要两个集合呢？

其实验证集和测试集这种划分，大多存在于实验场景下验证模型性能。验证集用于选择模型，测试集用于检验选择出来的模型的性能。

结合实际场景的话，就不是特别需要验证集、测试集这种划分方式。因为实际场景中的数据就是测试集，我们在建模过程中，只需要划分训练集和验证集就足够啦。

就拿我们希望做到的事情为例，我们希望用历史数据去构建一个量化模型，指导我们的交易。我们划分训练数据A来训练模型，在用一部分验证数据B来检验模型性能。最后，我们根据模型在验证数据上的性能选出符合预期的模型，在实际场景中测试它的性能。在上述过程中，A毫无疑问是训练集，B是验证集，这二者都是实验场景下的。测试数据是实际场景中的数据。

一句话总结验证集和测试集的区别：验证集是（被视为）实验场景下的测试集，测试集是（被视为）实际场景中的测试集。

如果大家要检验模型性能，一定要在实际场景中测试~

放两张图，祝大家一路长红~

标签：

关于数据集的一些解答~

关于数据集的一些解答~的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

关于数据集的一些解答~

本文作者的其他文章

关于数据集的一些解答~的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

关于数据集的一些解答~的评论 (共条)