SparkSQL案例:电影评分数据分析
MovieLens数据集
MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。
· 下载地址 http://files.grouplens.org/datasets/movielens/
· 介绍
下面以ml-100k数据集为例进行介绍:
下载u.data文件
u.data - 由943个用户对1682个电影的10000条评分组成。每个用户至少评分20部电影。用户和电影从1号开始连续编号,数据是随机排序的。

需求
1.查询用户平均分
2.查询电影平均分
3.查询大于平均分的电影的数量
4.查询高分电影中(>3)打分次数最多的用户,并求出此人打的平均分
5.查询每个用户的平均打分,最低打分,最高打分
6.查询呗评分查过100次的电影的平均分排名TOP10
完整代码
