【齐鲁工业大学毕业设计论文模板】基于机器学习的人体健康状态评估方法

齐鲁工业大学本科毕业设计(论文)原创性声明
本人郑重声明:所呈交的毕业设计(论文),是本人在指导教师的指导下独立研究、撰写的成果。设计(论文)中引用他人的文献、数据、图件、资料,均已在设计(论文)中加以说明,除此之外,本设计(论文)不含任何其他个人或集体已经发表或撰写的成果作品。对本文研究做出重要贡献的个人和集体,均已在文中作了明确说明并表示了谢意。本声明的法律结果由本人承担。
齐鲁工业大学关于毕业设计(论文)使用授权的说明
本毕业设计(论文)作者完全了解学校有关保留、使用毕业设计(论文)的规定,即:学校有权保留、送交设计(论文)的复印件,允许设计(论文)被查阅和借阅,学校可以公布设计(论文)的全部或部分内容,可以采用影印、扫描等复制手段保存本设计(论文)。
目 录
摘 要
第一章 绪 论
1.1课题背景
1.2国内外研究背景
1.3本文主要设计内容
1.4研究方法
第二章 机器学习基础理论
2.1机器学习
2.2机器学习工具
2.3 逻辑回归模型
2.4决策树模型
2.4.1决策树的概念
2.4.2决策树经典算法
2.4.3决策树构造过程
2.5本章小结
第三章 算法研究
3.1数据集来源
3.2数据集预处理
3.3模型性能评估方法
3.4本章小结
第四章 系统设计
4.1实验环境
4.2方案设计
4.3实验结果与分析
4.3.1逻辑回归模型
4.3.2决策树模型
4.4本章总结
第五章 总结和展望
参考文献
致 谢
摘 要
随着我国医疗水平的不断提高,居民对于自己的健康状态愈加关心。而一般人体健康状态的评估较为复杂,医生也有主观性判断,因此一直缺乏有效的手段在疾病发生前来进行准确地评估人体的健康状态。机器学习作为人工智能的重要领域,已经成为当今智能技术领域的重点发展对象,机器学习具有能够快速准确处理数据、准确分析并提取有效关键信息的优点,可以应用在人体健康分析领域。本文提出了一种基于机器学习的人体健康状态评估方法,利用逻辑回归算法以及决策树模型来分析居民的健康状态。同时也为后续找到更加适合搭建人体健康状态预测的模型提供了一定的有效理论依据。
本文研究采用python语言,在Jupyter Notebook平台中读入ISIC提供的数据集,以机器学习的理论知识为基础,进行数据集的划分、预处理等操作。在从sklearn库中导入所需要使用的逻辑回归模型和决策树模型,并分别对本文的数据集进行一定的训练与测试,再通过从sklearn库中导入的混淆矩阵、分类准确率分数,来计算评估,得到逻辑回归模型预测准确率为95.9%,决策树模型预测准确率为94.7%。本文提出的人体健康状态评估方法预测准确率较高,能够为人体健康的检测和预防提供一定的有效依据。
关键词:机器学习 人体健康评估 逻辑回归 决策树 混淆矩阵
ABSTRACT
With the continuous improvement of China's medical level, residents are more and more concerned about their health. The evaluation of general human health status is more complex, so there has been a lack of effective means to accurately evaluate human health status before the emergence of illnesses. As a significant field of artificial intelligence, machine learning has become the focal point of present technology development. Machine learning has the merits of fast processing of large amounts of data, analysis and extraction of valid crucial information, and can be applied to the territory of human health analysis. In this text, a human health state appraisal procedure based on machine learning is recommended, which uses logical regression algorithm and decision tree model to analyze the health state of residents. At the same time, it also provides an effective theoretical basis for finding a more suitable model for human health prediction.
This paper uses Python language to read the data set provided by ISIC in the Jupyter Notebook platform. Based on the theoretical knowledge of machine learning, the data set is trained and tested by using logical regression model and decision tree model respectively. Through the classification accuracy score imported from sklearn database, the predicted accuracy rate of logical regression pattern is 95.9% ,and the predicted accuracy rate of decision tree model is 94.7%. The prediction accuracy of the human health status evaluation method proposed in this text is above the average, which can provide a more than one kind efficacious foundation for the examine and guard against of human health.
Keywords: Machine Learning; Human Health Assessment; Logistic Regression; Decision Tree Classifier;Confusion Matrix
第一章 绪 论
1.1课题背景
现如今,居民的生活水平不断提高,其对于如何根据体检信息进行健康评估,如何预防疾病也更加关心,尤其是对于慢性病的早期诊断和预防[1]。一般慢性病的诊断较为复杂,医生也有主观性判断,因此一直缺乏有效的疾病预防治疗手段,那如何根据体检者的体检信息PEI,来为体检者提供有关慢性病的健康状况及疾病诊断的信息,在疾病发生前准确诊断疾病,成为当今医疗方面的一大重点问题。现因人工智能的不断普及,机器学习作为人工智能方面的重要领域,已成为当前智能技术发展的重要对象。由于机器学习具有准确快速处理大量数据、正确分析并且可以提炼有效关键信息的优点,为提早预防,减少因无法提早预防根治造成的慢性病死亡率,故来构建基于机器学习的较高精度的身体健康状态的评估模型。
本文研究基于机器学习对人体健康状态进行评估,通过收集体检者的体检信息PEI,分别通过逻辑回归算法[1]和决策树模型[2]两种算法模型来以此分析体检者的健康状态。通过两种算法建立的模型,来对人体健康状态的预测结果进行健康、不健康的二分类,从而找到更加适合构建人体健康状态评估模型的算法模型,为慢性病的检测和预防提供一定的有效依据,为国家提倡的人体健康计划贡献一份力量。
1.2国内外研究背景
机器学习作为一门专门研究计算机系统来提高其自身性能的新兴学科。经历了浅层学习和深度学习的发展浪潮后,机器学习已经在医疗图像、语言等领域取得了显著进展,特别是对基于临床图像诊断疾病的应用发展[3]。尽管AI在对于慢性病的早期诊断和预防方面可以节省成本并提高效率,但是由于对身体状况下PEI的系统分析不足,因此目前尚未生成基于PEI的身体状况预测的预测模型。
从2016年美国癌症协会的公开统计数据来看, 在美国就慢性癌症这一种疾病,诊断病例达到约76380例, 死亡人数已达到约10130例的惊人数字[4]。倘若一些慢性癌症能在早期及时诊断并进行正确治疗, 存活率是非常高,且可以达到一个乐观的救治率[4]。从WHO国际癌症研究中心公布的有关东南亚国家中患慢性癌症的数据来看,韩国、日本的慢性癌症发病率显著高于其他东南亚国家,而因我国的人口基数大,患慢性癌症的人数排行居于第一位,这表明虽然我国各年龄段的慢性癌症发病率均低于韩国、日本,但仍需要注意预防慢性癌症疾病的发生。目前,慢性病的初期临床诊断,主要的诊断方法在于主治医师的判断,在诊断过程中,不仅容易受主治医生的个人主观性影响, 还会因需要做各类病理活检延长检查周期,错过最佳治疗周期。如何有效根据体检者的体检信息PEI来高精度的诊断体检者的健康状态仍是我们所需要急切研究的。
随着人工智能在疾病预测方面的广泛应用,我国从事疾病预测的研究人员开始开发医疗大数据应用程序,例如基于人工智能(AI)的大数据应用程序,进行基于临床图像诊断疾病的诊断识别, 从而获得诊断性能的提升[5]。但由于仍存在对于慢性病预测的不足,缺乏对身体状况下PEI的系统分析,故仍需通过预测模型结合疾病知识,找到更加适合判断人体健康状态的设计方法,来提高健康状态评估的准确率。而logistic回归模型、决策树模型作为机器学习中的典型算法,可以基于这两类模型来对体检者的健康状态进行评估[6]。
1.3本文主要设计内容
设计基于机器学习的健康状态评估方法模型。本文实现人体健康状态评估的方法可以分成以下几个部分:数据集的下载、预处理、数据分析分类;Logistic Regression逻辑回归模型的训练;Decision Tree Classifier决策树模型的训练几个部分。在深入了解有关机器学习的原理后,通过python语言编写代码,分别搭建逻辑回归模型和决策树模型,来创建关于以机器学习为基础的人体健康评估预测模型的框架,找到符合条件的试验数据,并对相关数据进行训练调试,最后得到实验结果并进行分析评估。
本文共五章,如下文所示:
第一章是绪论,介绍了本论文经历的研究背景以及该研究背景的社会现实意义,明确了本文在研究过程中使用的研究思路及设计方法,确定了主要研究设计内容和步骤,并完成论文的整体组织架构。
第二章主要介绍论文涉及到有关机器学习的基础知识,就机器学习的概念,了解机器学习的分类,工具,同时讲述了Logistic Regression逻辑回归算法以及Decision Tree Classifier决策树模型的基础知识。
第三章介绍了设计所需要的数据集的有关内容,像数据集来源、下载过程、内容以及进行的数据预处理。并讲述了逻辑回归模型以及决策树模型对于人体健康基于PEI预测的性能评估方法,并立足于通过算法模型来构建人体健康状态预测评估的现实情景。
第四章介绍课题设计的搭建环境,设计具体步骤如模型的搭建过程及训练测试过程等,并对逻辑回归模型和决策树模型的预测结果分别进行了具体分析。
第五章主要介绍了总结与展望,主要为工作总结,对逻辑回归模型和决策树模式对人体健康状态评估的所得成果进行了阐述,且进一步展望未来。
1.4研究方法
(1)根据课题任务书查阅相关研究报告以及参考文献,确定好本文要研究的具体方向,并以此为根据,在人体健康和机器学习结合领域的数据发布网站,下载设计所需要的数据集。在得到了对应类型的数据后,剔除掉数据集中对本文研究无作用的部分,然后进行归一标准化、缺失值的插补等操作,从而处理好所获得的有用数据。在完成上述处理后,根据我们实际的数据量和实验情况,我们还需要将数据进行训练集和测试集的区分。
(2) 首先学习机器学习框架下的基础理论知识,进一步的掌握算法模型原理及使用方法,在完成以上的任务目标后,选取适合本文研究方向及内容的模型来建立基于机器学习框架的疾病预测模型并选择合适的工具来处理所用模型,并且要配置好相关数据内容。
(3)在电脑上的Anaconda软件配置好合适的编程实验环境,使用Python语言在Jupyter Notebook中进行代码的编写,来建立我们预期的较高精度的人体健康状态评估模型,在代码和模型调试正确后,将研究方法一中的测试集和训练集的实验数据导入到模型,再进一步进行对应的训练、测试,能够得到良好的逻辑回归模型和决策树模型,预测准确率比较高,能够实现本次毕业设计的目的。
第二章 机器学习基础理论
2.1机器学习
机器学习(ML)是人工智能(AI)的一个重要子集,是一个涉及多应用方面的交叉学科,主要是由强化学习、监督学习、无监督学习三部分组成[7]。其实,机器学习的应用思想很简单,它仅仅是一种模拟,是对人类生活的习惯、学习的过程来进行一个模拟。而在这一整个应用过程中,最关键的操作步骤就是对数据的处理,进而体现当今一些难题可以通过机器学习来解决或者可以进一步发展。
而机器学习中的深度学习,被称为深度结构化学习或者称作分层学习,也是基于人工神经网络的一种机器学习方法[8]。无论是在硬件、软件还是说数据的可用性方面,其中的一些进步都会使研究人员在医学领域方面创建和测试比较复杂的深度学习模型。而且近二十年以来,机器学习(ML)和深度学习(DL)算法在医学工程和图像处理等不同的领域都有着很大进展,特别是在医疗诊断方面有着极大应用[8]。而且再根据ML和DL算法的结构,为了构建一种基于机器学习的健康评估模型,提供一个庞大的数据库来满足预期结果是必不可少的。
机器学习应用比较偏智能方向的是监督学习,而监督学习中的数据都是带标记的。例如:数据特征点的位置、数据类别、数据属性等,这些都是监督学习中的典型标记。这些标记大部分作用是验证实验结果,来判断模型应用的预期效果,并且通过不断的改变参数来修正,来达到基于机器学习的预测结果。监督学习[9]的具体实现过程主要是:首先,是通过大量含标记的数据来进行训练机器,将机器的预测结果与期望结果来进行比对观察;其次,根据比对的结果差异来逐步修改所做模型中的参数,从而输出预测的结果;然后再将预测结果和期望结果进行比对,为更为准确,需要重复多次,直至收敛,最终生成具有一定鲁棒性的模型[10],从而体现监督学习中智能决策的能力,这种就是机器学习中的一个分类:监督学习。
分类(Classification)和回归(Regression)是机器学习中常见的两种监督学习。其中分类是根据实际的数据来将它划分到合适的种类中,它得到的预测结果主要是离散型。而回归是将数据规划到一条线上,即将离散的数据进行生产拟合曲线,也就是不规则曲线,从而使其预测结果为连续的[10]。其实,所有通过数据来进行训练,并嵌入相关学习算法的研究都是属于机器学习应用的一部分,包括许多已经发展很多年的技术,比如:逻辑回归(Logistic Regression)、决策树(Decision Trees)等等,都是属于机器学习的范畴。而其中一些用于慢性病检测和分类的算法也可以用逻辑回归和决策树来替代。
2.2机器学习工具
机器学习应用中的步骤刚开始应该是理解和探索数据,我们需要从多个方面读取数据、进行预处理,在这个过程中需要具有优良的统计和可视化功能的工具:
(1)Scikit-learn:在机器学习领域,Sklearn是当前最流行的机器学习建模和分析软件之一,基于Python实现。像Numpy、Scipy软件包都是Sklearn的发展基础,且对比下来,Sklearn大大提高了迭代效率[11],除此还有在应用时缩短开发周期,减少出错几率等优点。同时Sklearn 里面的分类、回归以及预处理等六大任务模块来帮助建模。
(2)Pandas:为一款基于Python语言的数据分析和建模的开源软件包,一般用于初步的数据清理和研究工作,它的底层数据结构也非常方便调用numpy以及scipy中已有的模块。还较为方便读取excel文件,特别是pandas中的inplace,它是有着是否在原对象基础上进行修改的作用。
(3)matplotlib以及seaborn:为了使数据可视化,如创建画布、添加标题、绘制图形、保存图形、绘制坐标轴颜色,样式等操作。
(4)Jupyter Notebook:它是一款综合的开发工具,虽然Jupyter本质上只是一个高级文字处理器,但是它结合了可视化技术,在其中不仅可以运行代码,还可显示输出以及添加一些公式以及图表的说明,使工作更加透明,更易理解。同时注意,在使用Jupyter Notebook之前,是需提前完成搭建好环境变量这一重要任务,主要体现在需要提前安装Anaconda,因Anaconda中包含了一些最大的Python库,像上述提到的Sklearn库、NumPy库、Pandas库以及Matplotlib库等,都是程序运行所需用到的知识[11]。
2.3 逻辑回归模型
逻辑回归模型(Logistic Regression,LR)又称logistic回归分析,它是一种较为简单常见的二分类模型[12],属于监督学习,它的数据是含有标签的,主要研究目标为自变量和因变量之间的关系。逻辑回归模型的具体表现为:对于一个不含标签的数据,通过逻辑回归模型,该数据会找到所属的特征类别。逻辑回归模型属于分类算法,主要用于减小预测的范围,并且将预测值局限在0-1之间。
如果预测结果只有两个或者两个以上,每个值设为一类,逻辑回归模型会进行判断预测的对象属于哪一类,得到的结果变量称为离散型变量,即为逻辑回归模型的分类问题。在医学研究中,对二元结果进行分类的常用技术也是逻辑回归,它是可以被广泛应用于医学方面,并且是最常用的预测模型之一[13]。
Sigmoid函数别名Logistic函数,是机器学习中的逻辑回归模型中的一个常见的S型函数,它的取值范围为0至1,主要作用是对数据进行二分类处理[13]。如果处理数据特征之间差异比较复杂的数据,因逻辑回归模型中的Sigmoid函数有着平滑,易于求导的优点,对数据是可以达到较好的预测效果。而由于逻辑回归模型中样本因变量的原因,Sigmoid分布呈现S形,具体如图2-1所示:

当采用logistic回归模型时,通常根据属性特征,来确定引起疾病的风险因素。该方法的核心就是逻辑二字。总之,对于Logistic算法来说,主要就是指自变量,因变量二者之间的依存关系。
2.4决策树模型
2.4.1决策树的概念
决策树模型(Decision Tree Classifier)实际上是一种酷似树形状的模型,类似流程图。实际上,决策树就是一种将所获得的数据集根据特定标准,划分成两个或两个以上的同等等级的分类技术[14],在机器学习应用搭建预测模型方面较为典型。在通过决策树模型进行分类时,它基于树型的图形化形式较为直观明了。对于决策树模型,一般将数据集中的标签比喻为决策树模型的叶子,而决策树模型的分支就代表这一类特征的总和[15]。
一般决策树模型承担于分类和检验工作,在医疗诊断方面应用较多,特别在于慢性疾病的医疗诊断、医疗卫生保健以及医疗资源利用评价等方面的应用。决策树模型对于本文研究的关于人体健康状态评估的预测,适用性较高。
2.4.2决策树经典算法
决策树模型属于分层技术,它学习的关键在于如何通过最好的抉择来划分属性。决策树作为分类算法的一大典型模型,主要包含三个重要算法[15]:
(1)ID3算法
ID3算法是决策树模型算法中的,出现最早也是最基础的一个算法。它以信息增益这一节点纯度度量原则为计算核心,但ID3算法的优点在于在数据集完整的情况下,可以不被噪声影响,学习能力较强。而ID3的缺点在对信息的处理方面,仅仅可以处理离散型数据。除此之外,因根据信息增益作为节点选择标准,故在选择时倾向于决策树的选择分枝较多的属性值,也就是在划分分类属性偏向于决策树取值多的属性,这容易造就在人体健康状态的预测结果出现准确率不高的现象。
(2)C4.5算法
在2006年数据挖掘国际会议ICDM中开展的算法优劣性的评比结果中,C4.5为排名第一的算法。它属于在ID3算法的基础上进行创新,主要以ID3算法为核心,新添加了可以方便处理连续数据,可以及时处理缺失数据等优点。在C4.5算法中,它主要采用对信息增益率对比的评估方法来选择决策树的特征属性,进而进行数据的特征划分。信息增益率的具体计算如公式(2-1)、公式(2-2)所示:

信息增益率有着可以在样本数量不足时,忽略较多无用特征属性,并且可以在离散化连续数值特征下进行属性分类的优点,但有一点缺点在于应用实际时过于矫枉过正。但在决策树算法C4.5中,信息增益率为重要的节点纯度度量原则。
(3)CART算法
CART是一种二叉树算法,相较于ID3算法、C4.5算法,它应用起来更为简洁,实现效率更高一些。Gini指数作为CART算法中的节点纯度度量原则,在做选择特征分类时,一般选用Gini系数比较小的属性,这代表纯度较高,更适合CART算法的特征划分属性,计算如公式(2-3)所示。

且在本文设计中,因考虑数据集的格式,CART算法效率高、也较为简洁的优点,在决策树模型中应用算法为CART算法。
2.4.3决策树构造过程
决策树模型的构造,一般是通过节点纯度度量原则来进行节点特征分类,以求进行最合适的属性划分,通常使用的分类回归树是一个二叉树模型,它的形状一般如下图2-2所示:

对于决策树的构造过程,最需要考虑的是如何分类,如上图所示,我们首先在数据集展示的特征属性中,根据节点纯度[15],找到最显著的那个分类属性,但当几个变量的分类均特别显著时,需要比较它们的显著程度,从而进行评判,例如上图2-2所示节点0,它是本次决策树模型分类时的决定性特征。在依次进行寻找它的子数据集中最优的分类属性,如节点1、2、3。同理,继续进行划分,为节点4、5等,直至遍历完所有属性。且在构造过程当中,最重要的划分属性原则就是根据决策树当中的三大节点纯度度量原则。通过节点间不纯度相对值,能够提高决策树的生成效率。
根据研究结果表明,Logistic Regression和Decision Tree Classifier两种模型应用在人体健康评估方面[15],可以充分发挥优越性,两者结合也可以帮助医护人员从多角度综合评判患者的人体健康状态。
2.5本章小结
本章内容主要介绍了本文在研究时涉及到的基础理论,首先介绍了机器学习的思想以及在本次设计中用到的基础工具如Pandas、Sklearn以及seaborn库知识等。其次介绍了逻辑回归模型的概念、图像展示、典型算法和构造过程,以及有关决策树模型的概念、图片展示、三种典型算法且包括节点纯度度量原则,构造过程的解释等知识,为之后的设计过程提供了理论基础。
第三章 算法研究
3.1数据集来源
本文采用在Github网站的ISIC-Archive中下载得到的公开数据集,格式为csv.格式,内容为人体健康指标PEI。
文中数据集内容为PEI指标,主要为:血脂(Blood lipid) 、胆固醇酯(Cholesterol ester)、心率(heart rate)、血压(blood pressure)、血糖浓度(Blood glucose concentration)、心排血量(Cardiac output)、肺活量(vital capacity )、生长激素(growth hormone )、促甲状腺素(thyrotropin)、泌乳激素(Prolactin)等,数据集如下图3-1所示:

3.2数据集预处理
在逻辑回归模型中,共采用了569个样本,按照7:3的比例关系来进行分割划分,训练集样本数量为398个,而在测试集样本数量中,正样本数量占56,负样本数量为115。而在决策树模型中,因实验效果问题,只采用了380个样本,同样采用7:3的比例进行分割划分,训练集样本数量为266个,在测试集样本数量中,正样本数量占43,负样本数量为71。将代表健康状态的样本和代表不健康的样本分别通过逻辑回归模型和决策树模型来判断模型的分析预测准确性,进而构建更加适合人体健康状态评估的预测模型。
由于在数据集的获取过程中,许多无用因素存在干扰影响,为保证实验质量,需要对采集的数据集进行预处理,主要操作步骤体现在以下三方面:
首先,删除数据异常的列,如图3-2所示:

然后,删除所有非浮点数据,如图3-3所示:

最后,删除某些与PEI人体健康信息无关的列(如性别、年龄等信息),如图3-4所示:

3.3模型性能评估方法
在使用模型评估预测事件的可能性时,一定会联系到模型的正确率,即为Accuracy。为了表征逻辑回归模型以及决策树模型用于人体健康状态评估领域的预测准确性,通常选取一些评估指标来判断模型的优劣性。
在评估测量训练模型性能时,一般使用三类:Accuracy、ROC曲线和AUC指标、P - R 曲线[15]。Accuracy适合用于直观来展示测试百分率;ROC(Receiver Operating Curve)曲线评估模型性能时,一般以曲线下面积AUC为预测基准;在P-R曲线中,主要介绍查全率以及查准率。在判断预测模型性能优劣性时,较为专注于准确率的评比[16],故在变量选择上,一般采用更为合理的Accuracy准确率指标。
在本文描述逻辑回归模型应用方面的优劣性时通常选用准确率来表示。一般在逻辑回归模型应用后,使用混淆矩阵来具体描述预测样本数量,并通过计算来判断预测准确性。预测准确率的概念为预测正确的样本数量占样本总数量的一个比例关系,如公式(3-1)所示:

(TP表示健康样本中训练结果与测试结果相一致的数量;FP表示健康样本训练结果与测试结果不一致的数量 ;TN表示不健康样本训练结果与测试结果相一致的数量;FN表示不健康样本训练结果与测试结果不一致的数量)
在本文描述决策树模型应用的优劣性的评估指标时,通常选用分类准确度来进行描述[17],而分类准确性分数是基于混淆矩阵来完成计算的。其中分类准确性分数的计算主要由公式(3-2)完成:

(TP表示健康样本中训练结果与测试结果相一致的数量;TN表示不健康样本训练结果与测试结果相一致的数量;P表示健康总样本数量;N表示不健康总样本数量)
3.4本章小结
本章内容主要介绍了在Github网站上进行了数据集的获取,数据样本的具体介绍,并介绍了对获取的数据集进行预处理(标准化删除等)操作。除此之外,还介绍了在机器学习Machine Learning应用中一般采用Accuracy、ROC曲线和AUC指标、P - R 曲线三种方式来评估模型性能。而对本文中的逻辑回归模型和决策树模型,主要根据基于混淆矩阵中的准确性指标来进行模型优劣性的性能评估。
第四章 系统设计
4.1实验环境
(1)计算机运行环境
本文进行模型设计所使用的计算机环境变量如表4-1所示:

(2)平台搭建环境
在设计的过程中,用到许多机器学习工具库,如Scikit-learn库,Pandask库以及matplotlib库等来进行数据的预处理,可视化操作等。
4.2方案设计
本次实验主要采用了两种算法模型来分别完成实验,具体使用的是逻辑回归Logistic Regression模型和决策树Decision Tree Classifier模型,主要步骤分为以下部分:
(1)查找ISIC提供的基于PEI的人体健康状态数据集,下载到磁盘,并上传到Jupyter Notebook,如图4-1所示:

(2)搭建好Jupyter中的编程环境变量以及完善配置所需要用到的库知识;
(3)导入数据集后,利用机器学习工具库描述数据集的大小以及对健康、不健康样本可视化,如图4-2所示:

(4)样本相关性分析,如图4-3所示:

(5)数据预处理:标准化,删除保留,缺失值插补等操作;
(6)在Jupyter平台中从Sklearn库中导入所需要的数据集,并依照7:3的比例关系,来进行训练集和测试集的分割划分:逻辑回归模型采用569条样本,决策树模型采用380条样本,如图4-4所示:

(7)从sklearn库中导入逻辑回归模型或者决策树模型(且在sklearn中实现的决策树是CART类型),如图4-5所示:

(8)从sklearn库中导入混淆矩阵,它的主要作用为评估健康状态样本分类的准确性,并得到预测结果,如图4-6所示:

4.3实验结果与分析
4.3.1逻辑回归模型
在逻辑回归模型中得到的混淆矩阵结果图,如图4-7所示:

分析:
(1)在上图中:0表示样本状态为不健康,1表示样本状态为健康,并且1.1e+02表示一种科学计数法,代表此处共1.1*100=110人;
(2)在样本中有110人不健康并且通过逻辑回归模型预测后,得到的状态也为不健康,预测正确;
(3)在样本中有2人为健康状态,但是通过逻辑回归模型预测后,得到的状态为不健康,预测错误;
(4)在样本中有5人不健康,但是通过逻辑回归模型预测后,得到的状态为健康,预测错误;
(5)在样本中有54人为健康状态并且通过逻辑回归模型预测后,得到的状态也为健康,预测正确;
(6)将逻辑回归模型中混淆矩阵得到的结果图代入计算公式,(110+54)/(110+54+2+5)得到准确率为0.9590643274853801 。
在逻辑回归模型中取得的预测分类准确率分数,如图4-8所示:

分析:
上图表明,本逻辑回归模型中预测准确率约为95.9%,预测错误率约为4.1%,这与根据图4-7计算得到的预测准确率相匹配。这代表该逻辑回归模型拟合效果较好,预测准确率较高,可以完成任务书中的全部要求,能够在实际中应用于人体健康状态的评估。
4.3.2决策树模型
在决策树模型中得到的混淆矩阵结果图,如图4-9所示:

分析:
(1)在上图中:0表示样本状态为不健康,1表示样本状态为健康;
(2)在样本中有71人不健康并且通过决策树模型预测后,得到的状态也为不健康,预测正确;
(3)在样本中有6人为健康状态,但是通过决策树模型预测后,得到的状态为不健康,预测错误;
(4)在样本中有37人为健康状态并且通过决策树模型预测后,得到的状态也为健康,预测正确;
(5)将决策树模型中混淆矩阵得到的结果图代入计算公式,(71+37)/(71+37+6)得到准确率为0.94736842105。
在决策树模型中得到的分类准确率分数,如图4-10所示:

分析:
上图表明,本决策树模型中预测准确率约为94.7%,预测错误率约为5.3%,这与根据图4-9计算得到的预测准确率相匹配。这代表该决策树模型拟合效果较好,预测准确率较高,可以完成任务书中的全部要求,能够在实际中应用于人体健康状态的评估。
4.4本章总结
在本章章节中,主要是讲述了设计基于机器学习的健康状态评估方法的整体流程。流程内容包括实验环境的配置、工具的设置、训练环节以及测试环节。在Jupyter平台进行了程序代码的正确编写及应用,最终得到较为理想的结果:在逻辑回归模型中,基于混淆矩阵中的分类准确率分数,可以得到95.9%的结果;在决策树模型中,基于混淆矩阵中的分类准确率分数,可以得到94.7%的结果。通过对上述逻辑回归模型和决策树模型得到的人体健康状态的评估结果分析可知,两种模型拟合效果都比较好,预测准确率均较高,可以完成任务书中的全部要求,能够在实际中应用到人体健康状态的评估领域。
第五章 总结和展望
本文研究的主题是基于机器学习的人体健康状态评估,根据课题任务书查阅相关研究报告以及参考文献,确定好本文要研究的具体领域,并以此为根据在相关领域的数据发布网站下载需要的数据集。在得到了对应类型的数据后,剔除掉数据集中对本文研究无作用的部分,进行数据预处理,数据集的划分等。
系统设计过程中,在通过逻辑回归模型以及决策树模型的研究预测分析后,能得到逻辑回归模型预测健康状态准确率为95.9%,决策树模型预测健康准确率为94.7%。实验结果代表本文提出的这种基于机器学习的人体健康状态评估方法预测准确率较高,为将来人体健康状态的评估检测和预防提供了一定的理论依据。
目前,本文的研究还不足够有深度,在将来可以从以下两个方面进行深入研究:研究的基于机器学习来评估人体状态是否健康的方法现只适合在数据量比较庞大的数据库系统中来进行判断,并不能完全准确地反映人体健康的真实状况,还需要更加细致的考虑验证。同时影响人体健康状态的PEI指标之间是否完全独立也还没有进行更深入的研究证明。另外,在将来如何在实际的慢性病医疗诊断过程中,更好的运用预测模型,提高诊断的准确率,这些问题都需要进一步探讨。
参考文献
朱明贤. 人体健康评估及信息管理平台的设计与实现[D].山东大学,2015.
段明月. 决策树模型在预测乳腺癌5年生存状况研究中的应用[D]. 吉林大学,2020.
徐佳芸,闫振广.人体健康基准关键参数BAF预测方法探讨[C]//.中国毒理学会环境与生态毒理学专业委员会第七届学术研讨会议论文摘要集.[出版者不详],2021:22.DOI:10.26914/c.cnkihy.2021.046925.
黄嵩.基于机器学习的心脏病预诊系统的研究[D].浙江理工大学,2021.
郭志恒,刘青萍,刘芳等.基于机器学习算法的脑卒中疾病早期预测模型研究[J].计算机与数字工程,2021,49(11):2180-2183+2247.
张敏,刘建强.基于逻辑回归模型的戒毒康复人群生命质量及关联因素研究[J].中国人民公安大学学报(自然科学版),2021,27(04):85-91.
吴佩琪,杨雅俪,周妍璐等.乳腺良恶性病变鉴别的MRI影像组学预测模型构建:基于随机森林、支持向量机、逻辑回归分类器[J].分子影像学杂志,2021,44(05):764-770.
周舟.基于逻辑回归模型的心衰患者研究[D].大连理工大学,2021.
程顺达,程颖,孙士江.基于机器学习的肿瘤智能辅助诊断方法[J/OL].电子科技:1-5[2022-05-16].DOI:10.16180/j.cnki.issn1007-7820.2022.05.009.
庞冉.基于机器学习算法的成人皮肤肿瘤诊断模型研究[D].郑州大学,2021.
陆浩轩,徐瑾妍,程可爱等.基于多因素回归分析和机器学习算法的冠心病预测模型构建及比较[J].宁波大学学报(理工版),2022,35(03):57-62.
王成武,晏峻峰.早期糖尿病风险预测模型的比较研究[J].智能计算机与应用,2021,11(01):64-68.
陈静华.Logistic回归模型、神经网络模型和决策树模型在轻度认知功能障碍向阿尔茨海默症转归预测中的比较[D].南昌大学,2018.
李梦然.基于Logistic和决策树模型的大学生亚健康状况及影响因素分析[D].北京交通大学,2015.
R. Serban, A. Kupraszewicz and G. Hu, Predicting the characteristics of people living in the South USA using logistic regression and decision tree[C]. 2011 9th IEEE International Conference on Industrial Informatics, 2011, pp. 688-693, doi: 10.1109/INDIN.2011.6034974.
L. Lei, Prediction of Score of Diabetes Progression Index Based on Logistic Regression Algorithm[C]. 2020 International Conference on Virtual Reality and Intelligent Systems (ICVRIS), 2020, pp. 954-956, doi: 10.1109/ICVRIS51417.2020.00232.
H. R. Bittencourt, D. A. de Oliveira Moraes and V. Haertel, A binary decision tree classifier implementing logistic regression as a feature selection and classification method and its comparison with maximum likelihood[C]. 2007 IEEE International Geoscience and Remote Sensing Symposium, 2007, pp. 1755-1758, doi: 10.1109/IGARSS.2007.4423159.