欢迎光临散文网 会员登陆 & 注册

Stata编程小笔记4——分组求和

2022-04-21 09:03 作者:deepwaterqh  | 我要投稿

绪言:

(1)分组求和最常用的命令是 bys 和 egen / gen 结合,其中bys是bysort的缩写,能实现“排序+分组”的双重功能。如果单纯写by,stata会要求你先对数据排序——sort。注意bys 和 egen 、 gen 结合效果不同。

(2)分组求和还有一个常用命令,叫collapse,但注意这个命令会改变原始数据的结构。

首先是bys和egen:将组内某变量的所有值一次性相加(缺失值视为0)。

上述例子是按照foreign这个变量来分组,然后加总每组内price变量的值,并将加总的值保存在TotalPrice变量中。对于bys这行命令,有时候我们会看到下面这种写法:

bys后面的变量多了个括号,这是什么意思呢?实际上,这相当于如下命令:

换言之,make这个变量在分组求和过程中不起作用,而仅在dataset展示数据的时候起作用(分组列示)。

其次是bys和gen:将组内某变量的值逐步累加(缺失值视为0)。

最后是collapse:这个命令和前面两个命令的最大区别在于,运行之后原始数据不见了,取而代之的是求和的结果。比如:

结果数据:

collapse命令结果展示


Stata编程小笔记4——分组求和的评论 (共 条)

分享到微博请遵守国家法律