数据规约之简单随机抽样
随机抽样,是统计学中常用的一种方法,它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在 Pandas 中,如果想要对数据集进行随机抽样,需要使用 sample() 函数。
知识点:
Pandas中的sample()函数可以从数据集中随机抽取行或列,可以用于数据集的随机采样、创建数据集的随机子集、模型评估等场景。下面我们来详细介绍一下sample()函数的用法。
sample() 函数的语法格式如下:
参数说明:
n: 抽取的行数或列数。
frac: 抽取的行数或列数相对于数据集的比例,范围在0到1之间。
replace: 是否允许重复抽取,默认为False。
weights: 可以为每个行或列设置权重,以便更有可能抽取它们。
random_state: 随机数种子,以确保每次抽样结果的一致性。
案例如下:
在这个例子中,我们首先使用p字典构造一个数据集。
然后,我们使用sample()函数从数据集中随机抽取一些行或列,并将结果存储在sample_df变量中。
在第一个例子中,我们抽取了2行数据;
在第二个例子中,我们抽取了20%的行;
在第三个例子中,我们允许重复抽取;
在第四个例子中,我们为每个行设置了不同的权重;
在第五个例子中,我们设置了随机数种子,以确保每次抽样结果的一致性。
代码如下:
输出结果如下:

