计算机毕业设计Hadoop+Spark电影推荐系统 电影数据分析 电影大数据 大数据毕业设计
由于本系统的数量规模较为庞大,电影信息表有8000多条电影数据,用户表中有14多万条用户数据,评分表中有100多万条数据。如果不对数据库进行优化,那么以后随着数据规模不断增长,数据库查询将会越来越耗时。针对这种情况,本系统对数据库做出了如下优化策略:
1. 索引优化
为表中某些字段添加索引(Unique、Normal或FullText类型),比如给电影信息表的电影名字段添加FullText类型的索引,便于用户在根据电影名搜索电影时更快地匹配;比如给电影评论表的豆瓣id字段添加Normal索引,方便查询某个电影下的评论信息。
2. SQL优化
在系统的SQL代码中避免使用一些比较耗时的函数或关键字,当涉及到多表查询时,尽量使用join关键字来优化子查询。如果遇到了慢SQL,可以在SQL语句前加上explain关键字分析SQL的详细执行情况,然后确保其尽可能使用索引或其他优化。
3. 表结构优化
优化表的数据类型,最大程度减小字段的长度。比如用户信息表的性别字段可以用“1”或“0”来代替中文的“男”和“女”,因为在MySQL中英文占1个字节,而中文占3个字节。
垂直拆分用户评论表,因为用户评论表的一些字段如评论内容字段在推荐计算时用处不大并且数据长度很长,纯属浪费计算资源,所以只保留必须字段,减少后面推荐算法的计算压力。


























