基于逻辑回归的互联网获客策略研究(练习)
摘要
互联网获客渠道是为公司获得收益,提升影响力的重要手段之一。在互联网获客渠道中,如何判别高质量用户和减少公司成本是最基础、最首要的环节,具有非常重要的理论以及现实意义。本文基于用户各方面数据建立了互联网获客优化模型。
针对问题一,首先,利用python通过数据合并,我们将四个数据表以user_id这一共通列进行合并为一张数据表,并进行查重和查空值,发现在city_num(城市)一列中,存在空值,将空值删除后查看city_num的所有的元素,发现存在error(错误)元素,也予之删除。之后查看异常值,发现在login_day(登录天数)中发现存在-1的元素,age_month(年龄)中发现过于巨大的数也予之删除。随后对登录天数,登录间隔等的字段取5%~95%的区间。最后将first_order_time(体验课下单时间)以”/”与空格进行分列,分别提取它们的年、月、日、具体时间以替换原有列。
针对问题二,利用python将city_num这一列绘制为词云图,以此可以更加清晰的看出下单用户所在城市的数量。随后利用R语言,对登录情况利用连续与分类变量绘制了折线图、箱线图与荆状图。其中包括登录间隔,登录天数,最后登录距期末天数等因变量。
随后对各图进行解读与描述性分析。
针对问题三。利用R语言以result(是否购买)为自变量建立基于aic、bic准下的逻辑回归模型,具体步骤为:建立全模型与空模型,经比较,证明全模型显著,并且查看全模型有哪些显著变量,之后建立aic、bic模型通过对比选择更优模型为最终模型,随后画三个模型的ROC曲线,查看最佳阈值。最后根据阈值,判断出用户最后是否会下单。
关键词:互联网获客渠道优化模型、逻辑回归、是否下单购买
一.针对问题一,我们需要将数据进行清洗。
1. 将多个数据集合并
然后,在对各个数据集进行初步的清洗之后,我们需要将多个数据集以user_id(用户id)进行合并。



由于,result(用户下单表)这一列数据只有购买的人,所以我们需要在合并这个数据表的时候采用外连。为了后面方便做逻辑回归,我们需要将result(是否购买)这一列数据中为购买的标记为0。

2. 数据集中是否存在缺失值
首先我们检验是否存在缺失值,除去各个文件中的缺失值,对于后面解释数据是有帮助的,比如,用户来自不同地点等…

检查发现,user_info(用户信息表)中city_num(城市)这一列数据中发现有28209条缺失值数据。

将所检测的缺失值删除。
3. 数据集中是否存在重复值
其次,我们检验数据集中是否存在重复值。

经检验,数据集中不存在重复值。
4.数据集中是否存在异常值
经过我们对数据集观察后发现,user_info(用户信息表)中city_num(城市)这一列数据中存在“error”这一特殊值。

去除掉“error”这一种特殊值数据,方便我们对city_num(城市)这一列进行解读分析。
然后,我们利用分位数去异常值的方法,将我们所需要的数据划分,去除前5%和后95%的数据,让数据变得更具有价值。


5. 将时间数据分列
将first_order_time(体验课下单时间)进行分裂,将原始合并的数据分裂成年、月和时间。



6.去除无行为交互的用户
通过对数据的观察可以发现到,绝大多数用户的数据对我们后面的研究分析没有用处,并且会影响到我们的整体美观。所以,对这些无行为交互的用户我们应当去除这类数据。

7. 建立测试集和预测集

8.导出数据
将清洗后的数据、测试集和预测集的数据导出成csv文件。

二.描述性分析

此图为各城市分布情况,可以看到购买课程的用户所在城市最多的为重庆,其次为成都、运城、广州等地区。全部为发达地区,可以看出顾客是否会购买产品,与所在城市是否为发达城市有关。


此二图为登录天数和登录时长对是否购买影响的箱线图,可以看出,购买产品的人登录天数一般在5天,登录时长在40天左右。均比不购买的人数大,以此可以看出,购买产品的人在登录天数和时长上都比不购买产品的人要大。


此二图为是否购买与是否进群与是否添加销售好友荆状图,可以看到购买的人数要比不购买的人数少很多,但是绝大部分都以进群和添加了销售好友,所以可以看出人们有购买的意愿,但绝大多数人并没有付诸实际行动。


此三图为是否购买与最后登录距期末时长、登录间隔、登陆时长的箱线图可以看出最后购买产品的人登录距期末天数和登录天数要比不够买的人要少,证明购买的人对产品使用次数更多。
三.建立模型
建模数据说明:
根据对题目的分析,判断用户最终是否会下单购买可视为0—1逻辑回归问题。因此确定因变量为是否下单购买,因变量为定性变量,有两个水平即1(用户下单购买)、0(用户不下单购买)。确定自变量为年龄、登录天数、登录间隔、登陆时长、添加销售好友、进群、开课数、领卷数量,其中年龄、登录天数、登录间隔、登陆时长、开课数、领卷数量为定量变量,添加销售好友、进群为定性变量。采用预处理后的数据进行建模,共81900条数据,具体如下表所示:

建立模型:
建立空模型,空模型的建立可以检验所建立的模型是否有效。
建立0—1逻辑回归模型得出结果如下表:

由全模型结果可看出在其它因素保持不变的情况下影响是否下单购买的因素可能是登录间隔、登陆时间、开课数和领券数量。
由于全模型部分显著,因此建立AIC模型与BIC模型,模型结果如下表所示:

AIC模型与BIC模型整体比较显著。
画出全模型、AIC模型与BIC模型的ROC曲线如下图:

模型确立与模型预测:
取AIC模型作为最终预测模型,单独绘制出AIC模型的ROC曲线如下图:

得出AIC模型的ROC曲线图得出的AIC模型AUC值为0.065,以0.065为阈值来进行建立模型预测后的混淆矩阵如下表:

整体错判率:100% *(5311+326)/81899=6.88%
TPR=100% * (2978/3304)=92.54%
FPR=100% * (5311/78595)=6.76%
故:整体模型预测精准度=1-错判率=1-6.88%=93.12%
四.建议


建议在发达城市进行对该产品的宣传、在第一季度和第四季度进行大力度的宣传,购买的用户会更有效。
建议在发达城市进行对该产品的宣传
字段说明:

部分数据展示:
