欢迎光临散文网 会员登陆 & 注册

一起向“统计诺奖”大佬学习R!R语言进阶教学之数据清洗(dplyr&tid...

2022-11-23 16:28 作者:男朋友的饼  | 我要投稿

https://github.com/rstudio/cheatsheets

https://github.com/rstudio/cheatsheets/tree/main/translations/chinese



tbl: data frame的一个子类


dplyr 数据清洗 常用函数

1、筛选

select:对列取子集


filter:通过逻辑,对行取子集

slice:通过位置,对行取子集,返回数据框

distinct / unique:选取没出现过的行

sample:随机选取一定比例的样本

arrange:排序(stable排序),desc()取倒序 VS order:排序 VS sort:排序向量,rev()取倒序   


2、合并

通过相同列名来合并(因此需要取名),可match很多列

可用by指定依据的列(默认依据第一列)

left_join:以左列为准,多退(删)少补(NA)

right_join:以右列为准

inner_join:删含NA的数据

full_join:包含所有数据


3、生成

mutate:根据原数据生成新列(可用lag做时间序列的延迟、cumsum做累加堆积图)


4、归纳

向量 → 标量

搭配group_by

tapply函数

(如果没有attach和detach,则需要加上前缀 iris$.,或者用管道)

管道

管道


tidyr(数据规整)

gather:把数据给拆成measure和value两列,放在原数据右边

separate / unite


一起向“统计诺奖”大佬学习R!R语言进阶教学之数据清洗(dplyr&tid...的评论 (共 条)

分享到微博请遵守国家法律