一起向“统计诺奖”大佬学习R!R语言进阶教学之数据清洗(dplyr&tid...

https://github.com/rstudio/cheatsheets
https://github.com/rstudio/cheatsheets/tree/main/translations/chinese
tbl: data frame的一个子类

dplyr 数据清洗 常用函数
1、筛选
select:对列取子集

filter:通过逻辑,对行取子集
slice:通过位置,对行取子集,返回数据框
distinct / unique:选取没出现过的行
sample:随机选取一定比例的样本
arrange:排序(stable排序),desc()取倒序 VS order:排序 VS sort:排序向量,rev()取倒序
2、合并
通过相同列名来合并(因此需要取名),可match很多列
可用by指定依据的列(默认依据第一列)
left_join:以左列为准,多退(删)少补(NA)
right_join:以右列为准
inner_join:删含NA的数据
full_join:包含所有数据
3、生成
mutate:根据原数据生成新列(可用lag做时间序列的延迟、cumsum做累加堆积图)
4、归纳
向量 → 标量

搭配group_by

tapply函数
(如果没有attach和detach,则需要加上前缀 iris$.,或者用管道)

管道

管道

tidyr(数据规整)
gather:把数据给拆成measure和value两列,放在原数据右边

separate / unite
