R数据处理-描述性统计和可视化
一、基本数据管理
1.向量的操作与运算
向量的外积 / 叉乘 / 向量积:
将两个向量的对应元素一一相乘,得到一个新的向量;
结果是一个向量;
两个向量的外积结果也叫作法向量,法向量与这两个向量构成的平面垂直。
向量的内积 / 点乘 / 数量积:
对两个向量的对应元素一一相乘后求和;
结果是一个标量。
2.数据框的基本操作
3.变量重编码
即根据一个或多个变量的现有值,创建新变量的过程。
一般分为两种类型,将连续变量修改成分类变量,或将缺失值 / 错误值替换为正确值。
4.日期
5.数据类型的相关操作
6.数据集排序
7.数据控制流
8.数据处理:标准化、分位数、分级、提取字符串
假设现有scoredata数据框,存储多位学生的信息。
有四列数据,依次为学生姓名、数学分数、理科分数、英语分数。
批量处理函数:apply族函数
apply族函数是高效能计算的运算向量化实现方法之一,比起传统的for, while常常能获得更好的性能。
apply:针对矩阵操作,遍历其中的行或列。
lapply(list apply ):针对列表操作,遍历列表向量内的每个元素,返回列表向量。
sapply(simplified lappy):简化了返回结果的lapply,返回普通向量。
二、描述性统计
连续型数值变量描述的目标是选用恰当的描述统计量,刻画变量分布的集中水平、离中趋势、分布形态的对称性及陡峭程度。
常用的描述统计量包括:
反映集中水平特征的均值、众位数等;
反映离中趋势特征的四分位差、方差、标准差等;
反映分布形态对称性的偏态系数;
反映分布形态陡峭程度的峰度系数。
分类型单变量描述的目标是编制频数分布表。
频数分布表一般包括频数和百分比,用于展示单个分类型变量的分布特征。
烦了,跳过
三、基本可视化
为直观展示数值型变量的分布特征以及在不同样本组上的分布差异性,常用的统计图形如下: