大数据毕业设计hadoop+spark+hive动漫数据分析可视化大屏 动漫推荐系统 计算机毕设













流程
1.DrissionPage采集知音漫客约2万条国产动漫数据存入mysql数据库;
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
3.hive建库建表导入.csv动漫数据;
4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
5.sqoop对分析结果导入mysql数据库;
6.Flask+echarts搭建可视化大屏;
创新点
Python全新DrissionPage爬虫使用
海量数据
爬虫
可视化大屏
离线hive+实时Spark双实现
可选装
推荐系统
预测系统
知识图谱
后台管理等