【计算机开题报告】基于协同过滤算法的图书馆书籍推荐系统大数据开题报告
注:每个学校模板不一样,仅供参考,需要私定联系Up主
一、选题的目的、意义、研究现状,本选题研究的基本内容、拟解决的主要问题
(一)目的、意义
随着新兴媒体的快速更新与盛行,公共图书馆的规模和现代化硬件设施不断得到优化和增加,图书馆的纸质图书质量和数量也呈直线上升的趋势。广大市民要想在海量的馆藏中寻找适合自己的图书十分困难,有些年长者更是对纷繁冗杂的图书无从下手。此外,传统的检索方式已经不能满足读者的阅读服务需求,他们越来越需要多样化、个性化的检索方式。
为了出版社和图书馆可以更容易的把握读者的个人喜好,同时也使读者能够及时获得自己所需要的相关书籍,而不是耗时耗力地自行查找,图书馆需要采取多种方式收集和分析读者的阅读信息,准确分析读者需求,创新阅读模式,为读者提供精准和个性化的书籍推荐服务,提升读者的阅读体验。当前,加强书籍推荐系统功能和提升读者满意度已成为公共图书馆的工作目标之一。
(二)研究现状
随着国际互联网的进一步发展,云计算和大数据技术越来越深刻地影响着工业、商业、金融、教育、军事等社会的各个层面和领域,并且潜移默化地改变着人们的生活方式。云计算和大数据技术的迅速发展使之很快应用于高校图书馆领域,书籍推荐服务也得到进一步加强,它们为用户的阅读创造了广阔自由的环境,提供了高效、快速和方便的信息传递途径。
个性化图书推荐系统以图书管理系统为背景,引入了个性化推荐技术,使图书管理系统能够根据用户的不同,推荐出个性化和人性化的结果,使用户能够通过此系统,更加高效的检索和学习。图书管理系统跨越了时间和空间的障碍,使得任何时间、任何地点的用户都可以通过互联网来阅读。一般的推荐系统主要是由行为记录模块、模型分析模块和推荐算法模块组成。针对图书检索和书籍推荐,个性化图书推荐系统主要对图书馆日志里记录的读者借阅数据、查询数据等进行整理,分析挖掘读者的阅读爱好从而进行个性化图书推荐。个性化推荐技术的引入,使得原本呆板的图书管理系统有了生机,它可以针对不同的用户,推荐不同的图书资源,更适应用户的需求,使用户更加能够高效率的阅读。
(三)基本内容
本课题对图书馆的书籍和用户数据进行采集,使用Hadoop技术进行数据整理并存储到MySQL数据库中;采用MapReduce技术进行数据分析,在结合图书馆书籍借阅的具体特征的基础上,提出适用于馆藏书籍的个性化推荐模型;对用户相关数据进行分析,为相似度较高的用户建立邻居关系,基于协同过滤算法产生符合用户兴趣的个性化图书资源列表;最后对推荐结果进行排序,并通过可视化技术展示出来。本课题主要分为以下六个模块:
1、书籍和用户数据获取
对馆藏书籍和用户数据进行采集,再使用Hadoop技术进行数据整理,并将数据存储到MySQL数据库中,便于后续对数据进行分析。
2、数据清洗
由于数据量较大,本课题采用MapReduce并行计算框架进行数据清理和数据整理。
3、馆藏书籍信息建模
对已获取的馆藏书籍信息进行分析,构建符合其特征属性的基本模型,存储到MySQL数据库中。
4、用户建模及邻居关系分析
根据用户借阅书籍的相关信息,采用每个读者的借阅评分向量来建立用户模型,通过余弦公式计算出各个用户之间的相似度,建立用户之间的邻居关系。
5、协同过滤
图书管理系统基于关键词和图书分类号产生检索结果,本课题以读者的借阅记录作为个性化推荐的数据参考基础,将检索结果中已经借阅过的图书过滤掉,将过滤后的图书列表用于对用户的个性化推荐。
本课题依据邻居的相似度及借阅历史,预测当前用户可能会喜欢的的书籍,根据邻居对图书列表中图书的偏爱程度进行第一次排序,再根据用户自己的向量模型计算得出按照一定顺序排列的最终书籍推荐列表。通过此策略,本课题为每一位读者进行个性化的图书推荐。
(1)根据用户的借阅记录,过滤掉已经借阅过的图书;
(2)将邻居的属性向量数据和图书数据进行协同过滤,进行第一次排序;
(3)将过滤出的书籍与被推荐者进行协同过滤,进行第二次排序;
(4)将最终结果推荐给用户。
6、数据可视化
使用浏览器对推荐结果及统计信息进行可视化,通过网页方式直观的展现出来。
(四)拟解决的主要问题
稀疏性问题。据研究结果表明,当用户评价项目数少于总项目数的,就很容易造成评价矩阵数据相当稀疏,导致算法难以找到一个用户的偏好相似邻居。
冷启动问题。基于用户协同过滤是建立在有大量用户对某个产品的评价上的,由于在新产品开始阶段没有人购买,也没有对其进行评价,那么在开始阶段也将无法对其进行推荐。
算法扩展性问题。随着物品数尤其是用户数的剧烈增加,最近邻居算法的计算量也相应增加,所以不太适合数据量大的情况使用,所以推荐系统性能也会大大受影响,没有快速的响应速度,对网络用户来说无法忍受的,因此限制了协同过滤算法在推荐系统中的使用。
二、选题研究步骤、研究方法及措施:
(一)研究步骤
1、课题调研
对现状需求进行分析,调研该课题的背景、目的及意义。
2、对目前图书个性化推荐系统进行研究和分析。
3、系统设计
根据需求分析的结果,按照其功能进行模块划分,编写各个模块:数据采集模块;数据清洗模块;数据分析模块;数据可视化模块。
4、程序编写
根据MapReduce文档提供的一系列开发文档,按其编程风格进行程序编写。
5、运行调试
通过IntelliJ IDEA等工具进行测试,调试改进程序。
6、撰写论文
归纳总结,参考文献,对分析结果进行整理,撰写论文。
(二)研究方法
1、文献研究法
通过对期刊、网络、图书等文献进行调研,了解该课题研究现状,找出不足,力求能够避免或者进行改进。
2、个案研究法
通过对有关成功案例进行搜集和分析,借鉴其成功的部分,根据现有的研究项目进行分析与设计,理论与实践的相结合,使理论有理有据,设计更合理,并提出自己的看法,在此基础上创新。
(三)研究措施
通过相关图书,学习相应的有关知识,进行网上搜索相关内容,阅读相关的项目报告,及时做笔录,对该课题有帮助的部分进行整理与分析,开拓思维,由此作为该课题的理论基础。
三、选题研究工作进度:
起讫日期
主要工作内容
2021.10.21-2021.11.12
选题、调研、收集资料
2021.11.13-2021.11.28
论证、开题、撰写开题报告
2021.11.29-2022.01.31
实践研究、资料搜集过程
2022.02.01-2022.05.17
论文写作
2022.03.14-2022.03.21
中期检查
2022.05.18-2022.05.25
论文答辩
四、主要参考文献:
[1]张捷.基于极限学习机算法的图书馆读者借阅行为分析[J].现代电子技术,2020,43(5):121-124.
[2]高远.网络环境下电子图书馆借阅流通管理系统设计[J].现代电子技术,2020,43(8):56-59.
[3]吴荣,段宏涛.基于Hadoop平台的Spark快数据推荐算法解析——以其在图书推荐系统中的应用为例[J].数字技术与应用,2020,38(6):115-117.
[4]石艳丽,刘欣.基于微信公众平台的图书借阅信息查询系统设计[J].现代电子技术,2020,43(24):88-91.
[5]高琪娟,刘锴,陈佳.面向Spark的图书借阅数据关联模型的研究[J].安徽农业大学学报,2018,45(4):768-771.