R语言学习记录：lubridate处理时序数据计算某一区间的均值和sum

2022-05-11 01:48 作者:孤独的王大老实 0人读过 | 我要投稿

前一段时间帮师妹处理了一个数据，也借这个机会进一步学习了一下lubridate包。

数据描述：

需求：

求ABC三个变量每天7点到11点之间的均值，以及D变量每天的sum

处理思路和过程：

1.首先先把xlsx文件导入进R，关于如何用R处理excel文件可以参考往期记录

1.1出现了2个问题

（1）提示有warnings

用warnings()检查一下发现给的提示是这样的

我直译一下：“强迫把文本变成了数值在巴拉巴拉巴拉‘NaN’”

于是我猜测原本的数据有Na值，返回原表去检查，果然如此

在把这些含有NaN的行删掉后，另存为‘test1.xlsx’，然后再导进R，就没有warnings了，证明我的直译是准确的（学习英语很重要！）

虽然手动在原来的excel里可以手动删除含有NaN的行，但是并不推荐这样做，因为数据可能有好几千好几万行，不可能一个一个去检索NA然后删掉，另外warnings只是代表警告，并不是说明这行代码没有运行成功，所以还是在后续代码中处理NaN较为快捷。

（2）变量‘time’列发生了改变

原来的time列是‘1:30:00’格式（时分秒hms），代表一点半，但是导入进R后变成了年月日（ymd）的格式。

1.2关于第二个问题的解决过程

在Stack Overflow上找到了两个类似的问题

Q1:

这个问题有三个答案：

第一个答案是利用format和hms函数进行转换

第二个答案是利用‘openxlsx’包读取

但我在用这个包进行读取的时候失败了，给的结果是这样式的

当时我也搜索了相关问题，但是具体什么原因我忘记了，反正就是还得再设置一下，我嫌麻烦就没有再继续探究，有了解这个问题的大手子还请多指点！

第三个答案是利用‘xlsx’包读取

但是这个包我至今都library不出来，一加载就重启（焯！）。（好像是和Java有关）

第二个问题，有很详尽的解释，大概意思是excel和R有不同的计算日期的标准。有兴趣的朋友可以前往原网站仔细阅读。

2.处理导入的数据框

导入xlsx后，就要开始处理了。此处需要注意的是，我并没有理会在第一步中出现的两个问题，没有理会问题1的原因已经说明，不理会问题二的原因是：我发现如果不去管它在后面的拆分日期中也是不影响的。

2.1根据需求，把日期拆分为年、月、日、时、分

在这里还遇到了一个小小的问题，就是要求均值的三个变量，是7点00到11点00的数据，如果用hour>=7&hour<=11来进行筛选的话，会发现11点30的数据也包括进去了。最后的解决办法是，一个一个的指定时间点。新增一列‘newhour’，把数据分为两类，一类是7点00到11点00的，标记为y。另一类是不在这个时间区间的，标记为n。