基于Hadoop的农业大数据挖掘系统的设计与实现开题报告
一、研究(设计)的目的和意义
1、研究的目的
随着大数据时代的到来,传统的数据挖掘系统已经不能很好的适应其各种特性,系统中的数据挖掘模块和底层的数据存储架构在处理海量农业数据时存在存储能力不足及资源处理效率不高等问题。基于Hadoop平台,我们可以减少数据集处理时间,消除重复计算和不必要计算,有效提升系统效率,利用这样的特点,还可以让我们的农业实现动态、多维的模式。
2、研究的意义
科技正在以大数据的形式向农业领域渗透,在我国农业发展中,农业生产要素已经悄然改变。面朝黄土背朝天的传统的农民形象已被抛弃,科技的力量已使农村劳动力成为“网络新农人”。他们手中的农业大数据平台已成为新工具,可以随时监测到土壤、天气、农作物等相关数据,而越来越多农民参与土地流转,赋予土地更大效益的同时,也带来收入的增加。因此,农业大数据的发展应用是建设农业农村现代化、实施乡村振兴战略、推进农业农村信息化发展和推动我国从农业大国走向农业强国的有力抓手。
二、研究(设计)的国内外研究现状和发展趋势
1、国内外现状:国内农业大数据注重结合地域性特征的精细化管理。中国是典型的小农经济,人口众多,地势辽阔,土地资源分配不均。在农业大数据的发展上,一些宏观农业农产品生产大数据平台层出不穷。但是,做精细化的农业大数据,却没有预想那么快,中国农业大数据由于中国地域特点与数据采集基础建设不完善等特点,面临着农业农村数据历史长、数量大、类型多、数据缺失、数据质量不高、开发利用不够等问题。在中国的新疆、东北、山东等地,大规模农业生产相对成熟,精准农业与智慧农业发展正微掀春风;但是在全国范围内,小规模的农业生产方式以及巨大的地域差距,加上农民在生产管理上的顽固性,推广精准农业、做大数据分析依然举步维艰。
在发达国家,注重大数据的精准化、智能化。尤其在美国,农业大数据与精准农业概念相结合,已经应用于大部分农场并产生理想收益。通过对农业生产全过程的精准化、智能化管理,可以极大程度的减少化肥、水资源、农药等投入,提高作业质量,农业经营变得有序化,从而为转向规模化经营打下良好基础。
2、发展趋势
大数据飞速发展并已经融入到人们生活的各个方面,得到人们的广泛认可。而于大数据相关的商业活动也越来越多,大数据正悄然的改变着人们的生活。传统农业已经不能满足人们的需求,大数据的出现为农业发展带来新的契机。目前,大数据在农业上已经得到了诸多应用,但我国农业大数据的发展还暂时处于起步阶段。但是,随着我国农业转型的加快、国家的大力支持、大数据技术的飞速发展,农业大数据将在我国得到更加广泛地应用。 由以上分析可以看出,我国农业现代化和农业信息化远低于发达国家水平,但是,大数据的发展为农业问题的解决带来了新的思路。农业大数据对农业信息化、机械化有极大的促进作用,我国正处于农业转型的关键时期,需抓紧此次机遇。
三、研究的主要内容及拟解决的主要问题
1、研究的主要内容:通过自主研发的人工智能大数据分析平台,实现了该AIoT技术解决方案中 的人工智能功能部分,赋能“全面农业大数据”,对农业监测的实时和历史数据以及农产品的产量、销量进行处理、挖掘和分析的深度应用,并且实现远程聘请专家,对大数据分析的结果给予指导性建议。基于Hadoop平台,根据温室农业大棚监测指标变化趋势预测预判的需求任务,以及面向物联网构建的农业数据集的特点,来设计定制化的机器学习模型,并在运行环境下,无缝对接农业物联网系统、数据仓库、智慧农业监控管理系统和数据服务发布系统。基于Hadoop的智慧农业大数据分析平台整体架构如图所示。
2、拟解决的主要问题
(1)硬件配置资源
(2)虚拟机环境配置
(3)hadoop集群安装
(4)数据挖掘功能的实现,把农业大数据输入到管理系统的每个节点上,调用 Ma-p Reduce 功能,让大数据挖掘数学运算运行起来,把数据的处理结果输送到分布式文件系统,通过人机交互界面呈现给用户。
四、采用研究方法及研究或设计思路
1、研究方法
在Hadoop平台中,从数据采集端得到的数据首先以MySQL普通数据库存储,Hadoop读取Excel文件并以HDFS分布式文件的方式进行存储,当数据量超过预设时,可以方便的扩充存储节点;MapReduce在处理数据时,首先对文件进行拆分处理,同时利用Hive技术简化处理过程,提高了数据处理、分析效率;分析后的最终数据通过HBase进行存储,通过网站图形界面方便的展示分析后的各种农产品大数据;数据预测模型根据处理后的数据准确、方便的预测下季农产品数据。
(1)基于Hadoop平台的智慧农业大数据平台的技术路线
(2)hadoop所含的子项项目的功能
组件
功能
HDFS
分布式文件系统
MapReduce
分布式并行编程模型
Hive
Hadoop上的数据处理仓库
Hbase
Hadoop的非关系型的分布式数据库
2、设计思路
本文设计了基于 Hadoop 的农业数据挖掘系统。该系统利 用 Hadoop 的优良的集群特性,强大的计算能力,存储能力,灵活的伸缩性和 扩展性,可以很好的达到以上的设计目标。
本文的设计思路是:充分利用 Hadoop 的集群特征,将数据挖掘系统中需
要巨大计算能力的各个模块的计算和存储要求扩展到 Hadoop 集群中的各个节
点上,利用集群的并行计算能力和扩展能力来进行相关数据挖掘工作。我们可
以采用分层的设计思想。在底层使用 Hadoop 来存储、分析和处理巨大的数据
量,而在高层通过接口直接透明的调用底层的计算和存储能力。具体思想是:
(1)存储
在整个系统中,我们可以使用 HDFS 来存储文件和数据。HDFS 具有很高
的数据吞吐量,并且很好的实现了容错机制。HDFS 提供了多种访问接口,包
括 API 以及各种操作命令。使用 HDFS,我们可以为原始的大数据集提供存储
空间,对临时文件进行存储,为数据处理、数据挖掘过程提供输入数据,同时
输出的数据我们也保存在 HDFS 中。
(2)计算
在系统中,我们可以使用 Map/Reduce 平台来支撑农业大数据海量挖掘的并
行高效处理。Map/Reduce 平台具有很好的伸缩性和扩展性,它可以屏蔽掉底层,
通过提供的编程接口使我们可以快速的实现各种算法的并行。实现过程中我们
都需要紧紧结合 HDFS。在系统中的数据挖掘过程我们可以通过 Map/Reduce 来实现,这会大大的提高系统的效率。
五、进度与时间安排
2021 年 1 月:系统需求分析,撰写开题报告,进行开题答辩;
2021 年 1 月—2 月:阅读文献资料,撰写文献综述;
2021 年 2 月—3 月:系统功能模块分析及软件设计;
2021 年 3 月—5 月:系统软件实现及系统测试;
2021 年 5 月上旬:系统优化,撰写论文初稿;
2021 年 5 月中旬:提交论文二稿;
2021 年 5 月下旬:提交论文终稿;
2021 年 6 月:论文答辩,提交归档材料。
六、主要参考文献
[1]王道雄. 基于Hadoop平台的农业土壤数据可视化研究[D].华中师范大学,2020.
[2] 侯亮,王新栋,高倩,刘素英.基于 Hadoop 的农业大数据挖掘系统构建[J].农业图书情报刊,2018,30(7):19-21.
[3] 郭二秀.基于 Spark 的农业大数挖掘系统的设计与实现[D].浙江大学,2018.
[4] 杜俊良. 基于 Hadoop 的农业大数据处理系统研究 [D].河南师范大学,2017.
[5] 焦改英.基于分布式算法的智能农业检索与管理系统设计[J].自动化与仪器仪表,2016(11):93-95.
[6] 柴进.基于 Hadoop 的农业数据挖掘系统的研究与实现[D].北京工业大学,2015.
[7]李红丽.Hadoop与Map Reduce应用下的大数据处理系统设计[J].网络安全技术与应用,2021(09):48-50.
[8]潘俊辉,王辉,张强,王浩畅.Hadoop平台下实现文本分类的优化算法[J].计算机与数字工程,2021,49(10):2043-2047.
[9]朱洁,罗华霖.大数据架构详解从数据获取到深度学习.电子工业出版社,2017.
[10]李娇龙.基于Hadoop的云计算应用研究[D].电子科技大学,2014.