欢迎光临散文网 会员登陆 & 注册

基于k均值聚类的志愿分析

2023-07-12 12:19 作者:Laplace欧拉  | 我要投稿

声明:本文不是志愿推荐,仅为个人兴趣,对所分析的学校仅从已有数据出发

一、分析思路

        基于软科、高考分数线、GDP、地图矢量等数据,使用稳健回归、熵值法、k均值聚类等方法分析高校选择的推荐程度。

二、分析过程

(一)经济中心选择

        根据2022年重庆市各区县GDP数据及各区县驻地经纬度,计算重庆市经济几何中心为(107.96°E,30.09°N),大致在石柱土家族自治县。因此后续关于交通费用的测算均从石柱土家族自治县出发。

(二)高校选择

        1.重庆市的重庆大学、西南大学、西南政法大学等9所学校;

        2.四川省的四川大学、电子科技大学、西南财经大学等9所学校;

        3.湖北省的武汉大学、华中科技大学、华中师范大学等9所学校;

        4.湖南省的中南大学、湖南大学、湖南师范大学等9所学校;

        5.陕西省的西安交通大学、西安电子科技大学、西北工业大学等9所学校;

        6.贵州省的贵州大学、贵州师范大学、贵州财经大学等等5所学校

        7.甘肃省的兰州大学、江西省的南昌大学、河南省的郑州大学。


省会城市、湘潭市及经济几何中心


(三)指标体系构建

        本文主要选取了经费预算、学科建设、标准分差假定分数高于物理类本科线150,标准分差=|2022年物理类最低分差-150|、交通费用、口碑和研究生报考。经费预算和学科建设反映学校客观状况,口碑和研究生报考反映主观评价,标准分差和交通费用则反映个人状况。

        本文假定经费预算、学科建设、口碑以及研究生报考为正向指标,标准分差和交通费用为负向指标。

(四)权重计算

        本文认为标准分差的影响是最大的,因此首先将其权重设置为0.5,再利用熵值法计算剩余五个指标的权重,并满足剩余权重和为0.5。

(1)无量纲化

①正指标


②负指标

式中:i是样本编号,取1到n的整数,j是影响因素编号,取1到m的整数;Xij表示原始指标值;Yij为无量纲化处理后的指标值;max{Xj}表示j编号因素中的最大值;min{Xj}则为j编号因素中的最小值。

(2)信息熵计算

若pij>0,则:

否则,mij=0,进一步

(3)权重计算

(4)综合得分

(五)聚类分析

        根据综合得分对所分析的高校进行排序,再利用k均值聚类,分类设置为六类,包括高推荐、较高推荐、一般推荐、较低推荐、低推荐和不推荐。

三、评估分析

        可以发现西南交通大学、重庆大学、西南大学、郑州大学、四川大学、湖南大学、南昌大学、湖南师范大学、中国地质大学(武汉)、武汉理工大学和陕西师范大学为假定情况中的高推荐,华中师范大学、西南政法大学、长安大学、西北大学等为较高推荐。在高推荐的高校中,各自的分差为5、24、-16、0、39、32、-2、13、4、14和-2,西南大学难度较小而四川大学难度较大,西南交通大学、郑州大学、南昌大学、中国地质大学(武汉)和陕西师范大学难度适中。

四、预测分析(重庆)

        使用稳健回归,预测发现:

        2023年物理类本科线  420分,高于实际14分

        2024年物理类本科线  419分

        2025年物理类本科线  419分

   

基于k均值聚类的志愿分析的评论 (共 条)

分享到微博请遵守国家法律