基于SparkSQL的客户画像分析(RFM模型)
说明:
此数据为2021年全国职业院校技能大赛河南省省赛数据
Spark版本为3.1.1,Hadoop版本为3.1.3,Scala版本为2.12,Hive版本为3.1.2。数据暂不共享
通过RFM分析可以将客户群体划分为一般保持客户、一般发展客户、一般价值客户、一般挽留客户、重要保持客户、重要发展客户、重要价值客户、重要挽留客户等八个级别。

表结构如下

指标数据处理:原始数据中没有R、F、M这三个指标,因此需要分别计算,并使用客户信息和计算出的R、F、M重新构建一个DataFrame。
指标数据标准化:由于各指标的性质不同,具有不同的量纲和数量级,直接使用原始数据进行分析,就会突出数值较高的指标在分析中的作用,削弱数值较低的指标的作用。使用标准差标准化方式将R、F、M进行标准化处理。
设置指标参考值:使用平均值作为指标参考值,分别计算R、F、M三列的平均值。
判断指标数据优劣:比较R、F、M的值相对于它们各自参考值的大小进行间接判断3个指标数据的优劣。将大于参考值的值赋值为1,小于等于参考值的值赋值为0, 根据重新赋值后的结果划分客户价值类型。
结果展示:分析客户价值类型的数量
