7个常用的时间序列数据集
在讲之前学姐有必要再让大家了解下机器学习的基本概念:
众所周知,当今机器学习的研究现状氛围传统机器学习和大数据环境下的机器学习。传统机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学习等方面的研究。大数据的价值体现主要集中在数据的转向以及数据的信息处理能力等等。
(资料源自百度百科)

看到这里你不会再觉得时间序列怎么会和机器学习牵扯到一起了,因为一切源自机器学习。
开始使用机器学习进行时间序列预测时的一个问题是找到用于练习的高质量标准数据集。本文介绍常用的7个时间序列数据集,你可以使用这些数据集开始和练习使用机器学习进行时间序列预测。
本文内容主要包括:
4 个单变量时间序列数据集。
3 个多元时间序列数据集。
可用于搜索和下载更多数据集的网站。
单变量时间序列数据集
只有一个变量的时间序列数据集称为单变量数据集。
特点:
简单易懂。
可以在excel或绘图工具中轻松绘制。
可以轻松地绘制与预期结果相比的预测。
可以快速尝试和评估一套传统和较新的方法。
以下是4个单变量时间序列数据集,包含销售、气象学、物理学和人口学等一系列领域的这些数据集。
洗发水销售数据集
该数据集描述了3年期间每月洗发水的销售量。
单位是销售计数,有36个观察值。原始数据集归功于Makridakis、Wheelwright和Hyndman (1998)。
下面是包括标题行在内的前5行数据的示例。

数据集显示出增加的趋势,可能还有一些季节性成分。
数据集传送门:
https://raw.githubusercontent.com/jbrownlee/Datasets/master/shampoo.csv
每日最低温度数据集
该数据集描述了澳大利亚墨尔本市 10 年(1981-1990 年)的最低日温度。
单位为摄氏度,有 3650 个观测值。数据来源被认为是澳大利亚气象局。
下面是包括标题行在内的前 5 行数据的示例。

该数据集显示出很强的季节性成分,并有一个很好的细粒度细节可供使用。
数据集传送门:
https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-min-temperatures.csv
每月太阳黑子数据集
该数据集描述了230多年(1749-1983 年)观测到的太阳黑子数量的月度计数。
单位是计数,有2,820个观测值,数据集的来源归功于Andrews & Herzberg (1985)。
下面是包括标题行在内的前5行数据的示例。

每月太阳黑子数据集图
数据集显示季节性,季节之间存在很大差异。
数据集传送门:
https://raw.githubusercontent.com/jbrownlee/Datasets/master/monthly-sunspots.csv
每日女性出生数据集
该数据集描述了1959年加利福尼亚州每天的女性出生人数。
单位是计数,有365个观测值。数据集的来源归功于Newton (1988)。
下面是包括标题行在内的前5行数据的示例。

每日女性出生数据集图
数据集传送门:
https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-total-female-births.csv
多元时间序列数据集
多元数据集通常更具挑战性,是机器学习方法的最佳选择。
多元时间序列数据的一个重要来源是UCI 机器学习存储库:
https://archive.ics.uci.edu/ml/
以下是来自气象学、医学和监测领域的3个推荐的多元时间序列数据集的选择。
脑电眼状态数据集
该数据集描述了个人的EEG数据以及他们的眼睛是睁着还是闭着。该问题的目标是仅根据 EEG 数据预测眼睛是睁开还是闭上。
该问题的目标是仅根据EEG数据预测眼睛是睁开还是闭上。
这是一个分类预测建模问题,共有14,980个观察值和15个输入变量。“1”的类值表示闭眼状态,“0”表示睁眼状态。数据按时间排序,并在117秒内记录观察结果。
数据按时间排序,并在117秒内记录观察结果。
下面是没有标题行的前5行的示例。
数据集传送门:
https://archive.ics.uci.edu/ml/datasets/EEG+Eye+State
占用检测数据集
该数据集描述了房间的测量值,目的是预测房间是否有人住。
在几周的时间内进行了20,560次一分钟的观察。这是一个分类预测问题。有7个属性,包括房间的各种光线和气候属性。
数据来源归功于UMONS的Luis Candanedo。
下面是包括标题行在内的前5行数据的示例。
数据以3个文件的形式提供,这些文件建议可以用于训练和测试模型的分割。
数据集传送门:
https://archive.ics.uci.edu/ml/datasets/Occupancy+Detection+
臭氧水平检测数据集
该数据集描述了6年的地面臭氧浓度观测,目的是预测它是否是“臭氧日”。
该数据集包含2,536个观测值和73个属性。这是一个分类预测问题,最终属性表示臭氧日的分类值为“1”,正常日为“0”。
提供了两个版本的数据,八小时峰值集和一小时峰值集。我建议现在使用一小时峰值设置。
下面是没有标题行的前5行的示例。
数据集传送门:
https://archive.ics.uci.edu/ml/datasets/Ozone+Level+Detection
大家今后可以使用这些数据集开始使用机器学习方法进行时间序列预测。学姐的机器学习系列教程还在持续更新中,关注学姐公众号,有问题可以马上来讨论。
文章来源:
https://machinelearningmastery.com/time-series-datasets-for-machine-learning/
免责声明:所载内容来源互联网,仅供参考。转载稿件版权归原作者和机构所有,如有侵权,请联系我们删除。如有翻译错误请评论区指出。
