欢迎光临散文网 会员登陆 & 注册

SparkSQL案例:电影评分数据分析

2023-03-16 15:32 作者:ingemar-  | 我要投稿

MovieLens数据集

MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。

· 下载地址 http://files.grouplens.org/datasets/movielens/

· 介绍

下面以ml-100k数据集为例进行介绍:

下载u.data文件

u.data - 由943个用户对1682个电影的10000条评分组成。每个用户至少评分20部电影。用户和电影从1号开始连续编号,数据是随机排序的。


需求


1.查询用户平均分

2.查询电影平均分

3.查询大于平均分的电影的数量

4.查询高分电影中(>3)打分次数最多的用户,并求出此人打的平均分

5.查询每个用户的平均打分,最低打分,最高打分

6.查询呗评分查过100次的电影的平均分排名TOP10


完整代码


SparkSQL案例:电影评分数据分析的评论 (共 条)

分享到微博请遵守国家法律