欢迎光临散文网 会员登陆 & 注册

数据挖掘的二手市场研究分析

2022-07-06 13:34 作者:矫情狗的保护色  | 我要投稿


数据挖掘的二手市场研究分析

摘 要

      随着我国经济的发展及汽车在大众生活中的普及,造成了二手车市场的广泛林立。但我国的二手车市场仍处于初级阶段,市场规模不断增加,具有广阔的发展前景。在二手车市场规模发展的同时,也带来了许多问题,其中最显著的问题是二手车售价的不稳定与缺少相应指标。这也导致了二手车销售速率有所下降,卖家卖不出去好车,买家寻找好车困难。本文通过大量数据,对二手车的售价进行预测,并且研究出影响二手车销售速率的主要影响因素,并提供可行方案。

      针对问题一,首先对数据进行预处理,分别是变量命名、数据缺失值的删除、填充以及特征工程。接下来分别构建多元线性回归模型、决策树和knn模型。对三个模型的准确率和误差指标进行计算、对比后,选择了准确率最佳的knn模型进行参数调整优化,优化后的最佳模型,性能评分为0.939。最后进行模型预测,并将其保存在附件3中。

      针对问题二,为探索二手车的销售速率,构建了加速失效模型(AFT)与等比例风险模型(Cox),探究影响二手车销售速率的显著性影响因素。结果表明:上架价格、价格调整次数、上牌日期、过户次数、里程、厂商类型等等变量对二手车的销售速度有促进作用,而减价率、匿名特征、新车价、展销时间等变量对二手的销售速度具有抑制作用。结合分析结果,提出了4个针对提高二手车销售速率的可行性方案。

      针对问题三,根据所给出的样本数据与前两问研究的基础,提出了三点可以进行扩充探究的方向。包括二手车价格评估体系构建、低价二手车重点分析与客户满意度调查分析。这三种问题的研究方向在扩充数据的同时,也可以增加模型的准确度,希望可以在后续的研究中进行完善。



关键词:二手车、回归模型、决策树、KNN、生存回归

目录

一、研究背景 1

二、问题重述 2

三、数据处理 3

3.1数据说明 2

3.2 数据预处理 2

3.2.1 数据命名 3

3.2.2 缺失严重列变量的删除 3

3.2.3 缺失值填补 4

3.2.4特征扩展 4

3.2.5 附件合并 4

3.3 数据说明 5

四、二手车售价预测模型构建 6

4.1 数据变量相关性分析 6

4.2所选用的预测模型介绍 6

4.2.1 多元线性回归 6

4.2.2 决策树 6

4.2.3 KNN 7

4.3 模型构建 8

4.4模型选择与优化 9

4.4.1模型选择 9

4.4.2 模型优化 10

4.5 模型预测 11

五、二手车销售速率影响因素分析 12

5.1 二手车销售速率分析 12

5.2 二手车销售速率模型构建 13

5.3 影响二手车销售速率显著特征分析 16

5.4 加快二手车销售速率方案 18

六、二手车市场研究建 19

6.1 二手车价格评估体系构建 19

6.2 低价二手车重点分析 19

6.3 客户满意度调查 19

七、报告总结及应用 20

7.1 总结 20

7.1 应用 20

八、参考文献 21






一、研究背景

      随着我国经济的迅速发展与文化建设的升级,人们对于生活消费的观念也随之不断改变,伴随着汽车在大众生活中的普及,造成了汽车厂商林立、品牌众多的市场局面。消费者在购买汽车时,二手车也逐渐占据了显著的购买比重。包括二手收车、二手车拍卖、二手车零售、二手策划置换等市场层出不穷。我国的二手汽车市场交易量剧增,中国汽车流通协会曾对此进行了调查,结果显示,2018年我国的二手车交易量达到1382.19万辆,而2012年仅794万辆。相当于2012年至2018年,二手车交易量增长近75%。截止目前,中国汽车保有量约2.4亿,我国的二手车交易比相较于国外仍处于较低水平,但由于我国人口中的据社会结构,这表明我国的二手车市场还处于初级阶段,且二手车市场的规模不断增长,有巨大的发展前景。

      二手车市场规模的发展,也带来了许多问题,如车主、买家之间信息不对称、交易不透明而导致二手车价格定价不准确。而对于二手车的价值评估是影响二手车销售的主要因素,二手车的价格对位相较于新车来说标准较少,其品牌、里程、车型、颜色、车龄和配置都在不断的影响着二手车的价值。而目前国家并没有出台一项具体的评判二手车价值的标准,许多二手策划交易平台与二手车第三方评估平台便自行建立了一系列的评估方法咦评估二手车价值。

      本文基于O2O的二手车门店模式背景,即网上获取信息,线下实体门店销售。通过获取到的二手车市场数据,对这些数据进行处理,并利用计算机与统计学的知识对次进行研究分析,探究影响二手车价格的影响因素,并基于此数据构建二手车估价模型以帮助门店更快的卖车、买家在自己的期望值内买到更好的车,促进二手车交易量,提高门店销售与二手车市场的发展。



二、问题重述

      因机动车数据的连续增长,所以我国人均机动车保有量不断增大,同时造成机动车的二次及多次交易市场规模不断扩大,但因我国目前并未出台评估二手及多手机动车辆资产价值评估标准,大部分二手车商和第三方交易平台都是从自身经验角度建立了各自的估价方法,但统一性较差,此次建模基于二手车数据特征从数学建模角度,建立一套二手车资产价值的评估标准及估价方法。

      问题1:基于附件1提供的二手车估价的数据,使用其中二手车特征和交易价格进行模型的构建及训练,再将附件2的二手车特征输入训练好的模型预测出交易价格。

      问题2:门店模式中,车辆会被门店买入后再次进行售卖,为提高门店车辆的销售速度,需要挖掘影响车辆成交时间的关键有效特征,并结合这些有效特征值说明采取那些方案是行之有效的,并说明该方案的适用条件和预期效果。

      问题3:根据前两问中建立的模型及数据,自主寻找有效问题,并得出解决思路。



三、数据处理

3.1数据说明

该数据来源于第十二届“mathorcup”高校数学建模挑战赛A题所给数据,包括四个附件。由于数据为txt格式,不便于分析和模型输入,故将附件1-4转化为csv格式后进行数据清洗,并对照题目提供的数据说明表对数据整体进行标签特征的添加。

3.2 数据预处理

本次竞赛所给数据共包括4个附件,分变为附件1-4,通过对题目的分析,决定使用以下方法进行数据处理。

3.2.1 数据命名

由于所给数据为txt数据,且均没有列名,所以使用赛题文件中所给的数据说明表对附件一中的36个变量数据与附件二中的35个变量数据进行命名,并将15个匿名变量命名为匿名变量1-匿名变量15以进行后续分析。

3.2.2 缺失严重列变量的删除

所给附件中,附件一为训练样本,将使用附件一中的数据构建模型,对附件二中的数据进行预测,所以需要同时对附件一与附件二进行相同的数据清洗步骤以保证训练样本与预测样本数据的一致性。首先对于附件1与附件2中的数据按特征进行缺失率计算,并升序排列,使用等宽离散化后构建缺失率分布图:

缺失率分布

图3-1 附件1缺失率                  图3-2 附件2缺失率

根据图3-1及图3-2可以看出,在多个变量中变量的缺失率主要集中在缺失数据量为0%-20%的部分,确实数据量为20%-100%占总体比例较小,因考虑到数据填充率过大将影响模型结果,所以删除缺失率大于50%的数据。

表3-1 变量比例缺失处理表

序号 变量名 缺失比例 处理

1 匿名变量15 0.919 删除

2 匿名变量7 0.601 删除

3 匿名变量4 0.404 保留

4 匿名变量10 0.208 保留

… … … …

在删除缺失值较高的变量后,附件一剩余34个变量,附件二剩余33个变量。


3.2.3 缺失值填补

在将缺失率过高的变量删除后,还存在部分缺失率低于50%的变量,对剩余缺失值进行均值填充,并将对应数据类型将部分特征转化为int型,经检验后无缺失值。经缺失值处理后的附件一数据剩余34个变量,附件二剩余33个变量。

3.2.4特征工程

(1)衍生新变量

基于对问题的分析,衍生新变量:销售时间、价格调整次数、降价率。

销售时间:销售时间=成交时间-上架时间。

价格调整次数:根据附件4调整后价格进行扩展,通过统计得出价格调整次数,并进行分列后得到最终成交价格。

降价率:降价率=(上架价格-下架价格)/上架价格得到降价率。

(2)定性变量编码

对匿名变量中存在的车型进行划分,根据车型大小进行计算,将计算结果划分为大、中、小三种车型,并将其分别编码为1、2、3。

(3)定量变量标准化

将匿名变量分别命名为匿名变量1-15,然后对所有定量变量采用数据类型转化,并进行标准化处理。

3.2.5 附件合并

以参照特征为车辆id将附件4及附件1进行左键连接,合并成新数据集作为实验数据。合并后数据有39个样本。如下表所示:

表3-2 合并数据信息

ROWS 10000

DUPLICATES 0

RAM 4.9MB

FEATURES 39

CATEGORICAL 16

NUMERICAL 20

TEXT 3

并选择数据特征样本进行展示:


3.3 数据描述

基于以上的数据处理后形成的新数据构建数据说明表,用于二手车的售价预测与分析。


表3-2数据说明表

变量名 含义 备注

因变量 price 二手车交易价格(预测目标) 万元

自变量 carid 车辆id

tradeTime 展销时间

brand 品牌id

serial 车系id

model 车型id

mileage 里程

color 车辆颜色

cityId 车辆所在城市id

carCode 国标码

transferCount 过户次数

seatings 载客人数

registerDate 注册日期

licenseDate 上牌日期

country 国别

maketype 厂商类型

modelyear 年款

displacement 排量 升

gearbox 变速箱

oiltype 燃油类型

newprice 新车价

anonymousFeature 15个匿名特征

pushDate 上架时间

pushPrice 上架价格

upddatePriceTimeJson {价格调整时间:调整后价格} 万元

pullDate 下架时间

withdrawDate 成交时间

四、二手车售价预测模型构建

4.1 数据变量相关性分析

对数据中的影响变量进行相关分析,探究与因变量二手车辆价格的关系。

图4-1 变量相关矩阵图

绘制相关性矩阵后很容易发现各变量与因变量之间有一定的关系,故此基于此数据构建模型进行进一步预测。 


4.2分析方法介绍

4.2.1 多元线性回归

多元线性回归是最常用于连续型数据的模型之一,是研究价格变化中的最常用模型之一。当有两个或两个以上的自变量时,就将其称为多元回归。相对于一元线性回归,多元线性回归可以使用多个变量的最佳组合进行预测,以形成更好的分析模型与预测模型。

基于该数据集构建多元线性回归模型,使用Python软件进行模型构建,使用scikit-learn中的多元线性回归函数,创建训练模型,并根据测试集进行检测。

4.2.2 决策树

决策树是一种在已知情况概率的基础之上,构建树形结构来进行机器学习的一种模型,该模型从根节点出发,每一个叶节点都代表着一种分类,每一个内部节点都代表着一个属性,每个分支都代表着一个测试输出。

决策树是分类树算法中的常用方法之一,通过机器学习得到一个分类器,通过分类器的自动分类对新的数据给出正确分类结果。决策树的分类规则易于理解。准确率高,但模型构建时需要进行多次迭代,耗时较长。

4.2.3 KNN

KNN是数据挖掘中的一种分类算法,通过K个最近邻居找到最接近的K个临近值进行代表。实际上也是聚类算法中的一种。KNN算法简单思路方便,易于理解、易于实现。因此KNN算法也是数据挖掘中常用的机器学习算法之一。


4.3 模型构建

首先对清洗完成的数据进行分组,依据销售价格这列,将数据分为因变量集与自变量集,其中销售价为因变量y,其余变量为自变量x。随后将数据按照7:3的比例分为训练集和测试集。训练集用来对模型进行构建与训练,并对模型进行评价,测试集用来验证模型预测的准确率。使用训练集依次构建了多元线性回归模型、决策树模型与KNN模型。三种模型的结果如下表所示:


表4-1模型结果展示

模型 训练集上R方 准确率

多元线性回归 0.767 0.762

决策树 0.348 0.341

KNN 0.932 0.893

对三种模型的测试集的原数据与使用模型后的预测售价结果进行对比,绘制各个模型的原数据与预测数据折线图。

  • 图4-2 多元线性回归、决策树与KNN模型预测结果展示

由上图可以看出,多元线性回归的预测准确率较差,决策树模型与KNN模型的预测准确率相差不大,但KNN模型准确率相较于其他两个模型较高一些。


4.4模型选择与优化

4.4.1模型选择

根据以上三种模型,从图像上可以看出KNN模型的预测准确率最佳。本部分将通过两个指标所建立的数学公式对模型进行选择。这两个个指标分别为小于0.05的相对误差及平均相对误差。

模型测评的标准如下:


其中MAPE表示平均相对误差:

0.2*(1-Mape)+ 0.8*Accuracy

其中APE表示相对误差:


其中,真实值,模型预测值为,(5%误差准确率):


其中为相对误差Ape在5%以内的样本数量,为样本总数量。 

根据以上公式进行程序编写,得到的各模型评分结果如下表:

表4-2 模型评分表

模型 多元线性回归 决策树 KNN

评分 0.816 0.672 0.927

从上表及上文中的分析可以看出KNN模型的预测效果最佳。为达到最佳的预测效果,将对KNN模型进行优化。

4.4.2 模型优化

选择KNN模型进行预测,但KNN在机器学习中的计算均使用的原设定的默认值,这会导致模型精度不是非常准确,所以需要对KNN模型中的参数进行调整,寻找适合该预测模型的最佳参数。

KNN即K近邻算法,它具有多个参数,在机器学习中将K近邻算法中的邻居数k,也就是n_neighbors的默认值设置为5,但默认值所计算的准确率往往不足,故此在优化过程中,将K值选取为1—10循环构建模型,并计算模型评分,根据每个模型的评分选取出最佳的KNN模型。

表4-3 K值与模型评分表

k 1 2 3 4 5 6 7 8 9

模型评分 0.88 0.902 0.898 0.896 0.891 0.889 0.884 0.879 0.876

将K设置为1-9进行循环建模计算,并记录下每次模型中的模型评分如表4-3所示。根据计算得到,当K=2时,模型调整到了最佳状态。调整结果如下:

表3-4 调整后模型评价表

训练集上R方 模型准确率 模型评分

调整前 0.934 0.892 0.927

调整后 0.966 0.901 0.939

与调整之前的k=5的默认KNN模型相比,可以看出调整后的KNN模型的拟合优度、模型准确率及模型评分均有了显著提升,使用调整后的模型对划分的测试集数据进行预测,并将测试集中的预测结果与原数据结果通过折线图,使用Python绘制在一张图上,预测结果如下图:

图4-3 优化后的模型预测图

相较于之前的未优化的KNN模型,可以发现优化后的KNN模型准确率大大的提升。虽然从数据中的准确率来看,KNN模型的提升仅0.05左右,但对于海量的数据来说,模型准确率小的增加也可以导致模型预测准确率有很大的提升。故此使用调整后的KNN模型对附件二数据进行预测。

4.5 模型预测

对附件2中的数据使用与之前附件1相同的方法进行数据清洗。得到与附件1格式相同的数据集。将附件2中的数据导入Python中,并使用之前建立的KNN模型对数据进行预测。

预测的部分结果展示如下:

表4-5 部分预测结果展示表

车辆id 预估售价

3 22.63

4021 23.42

4615 22.56

4743 23.42

5672 22.36

16289 15.84

… … 

将预测结果输出为txt文档(无列名),保存于附件3中。


五、二手车销售速率影响因素分析

作为定价师,为了加快门店中二手车辆的销售速度,最重要是能够找到影响车辆成交周期的关键特征因子,根据影响因子的水平对二手车价格进行精准定价以提高二手车的成交率。

5.1 二手车销售速率分析

但根据数据说明表可以发现,影响二手车销售速率的特征众多,为了确定出哪些特征对销售速度的影响显著性较高,并结合数据的特性(销售速度为截断时间数据),适合使用生存回归模型进行分析及预测。

模型中所使用的数据成分如下表所示:

表5-1 生存回归使用数据

样本量 变量数量 售出率(%)

10000 41 80%

由上表对数据样本情况进行初步展示,根据公式“销售速率=售出概率/销售时间”,对二手车销售速率进行展示如图5-1,将特征是否售出和销售时间做为因变量,其他作为自变量,首先进行KM估计:

图5-1 KM生存回归曲线

基于上图的KM估计所绘制的生存曲线图可以发现,随着销售时间的增加,二手车售出的概率会越来越小,无限趋近于x轴,这说明二手车的出售概率会随时间变化越来越低,所以二手车的售卖越早越好。

5.2 二手车销售速率模型构建

为了进一步探究数据中影响二手车销售速度的其他影响因素,构建加速失效模型(AFT)与比例风险模型(Cox),但由于模型中变量较多,且存在许多无关变量与影响极小的变量,这会导致模型的过拟合而影响模型精度。为使模型的拟合程度更佳,基于贝叶斯信息准则(BIC准则)对两个模型进行变量筛选。

具体的模型参数展示如下:


表5-2 生存回归BIC模型

模型 变量名 回归系数 标准差 显著性

加速失效模型(AFT) (Intercept) 144.924 30.954 <0.05

上架价格 0.013 0.002 <0.05

as.factor(价格调整次数)1 0.288 0.035 <0.05

as.factor(价格调整次数)2 0.598 0.055 <0.05

as.factor(价格调整次数)3 0.752 0.086 <0.05

as.factor(价格调整次数)4 0.734 0.140 <0.05

as.factor(价格调整次数)5 1.312 0.249 <0.05

as.factor(价格调整次数)6 0.391 0.344 0.256

as.factor(价格调整次数)7 0.921 0.619 0.137

as.factor(价格调整次数)8 0.511 0.718 0.477

as.factor(价格调整次数)12 1.104 0.875 0.207

减价率.百分之. -0.003 0.002 <0.05

匿名特征2 -0.026 0.005 <0.05

新车价 -0.005 0.001 <0.05

上牌日期 0.000 0.000 <0.05

展销时间 -0.001 0.000 <0.05

过户次数 0.282 0.021 <0.05

里程 0.020 0.005 <0.05

年款 -0.067 0.016 <0.05

as.factor(厂商类型)2 0.010 0.045 0.822

as.factor(厂商类型)2.06070033 -0.151 0.057 <0.05

as.factor(厂商类型)3 0.307 0.062 <0.05

Log(scale) 0.211 0.009 <0.05

等比例风险模型(cox) 上架价格 -0.011 0.002 <0.05

as.factor(价格调整次数)1 -0.250 0.028 <0.05

as.factor(价格调整次数)2 -0.525 0.045 <0.05

as.factor(价格调整次数)3 -0.658 0.070 <0.05

as.factor(价格调整次数)4 -0.640 0.114 <0.05

as.factor(价格调整次数)5 -1.115 0.202 <0.05

as.factor(价格调整次数)6 -0.327 0.279 0.234

as.factor(价格调整次数)7 -0.806 0.501 0.108

as.factor(价格调整次数)8 -0.471 0.582 0.418

as.factor(价格调整次数)12 -0.974 0.708 0.170

减价率.百分之. 0.003 0.001 <0.05

匿名特征2 0.022 0.004 <0.05

新车价 0.004 0.001 <0.05

上牌日期 0.000 0.000 <0.05

展销时间 0.001 0.000 <0.05

过户次数 -0.243 0.017 <0.05

里程 -0.018 0.004 <0.05

年款 0.058 0.013 <0.05

as.factor(厂商类型)2 -0.004 0.036 0.920

as.factor(厂商类型)2.06070033 0.136 0.047 <0.05

as.factor(厂商类型)3 -0.255 0.050 <0.05

Scale = 1.12


由上表已经可以看出影响二手车销售速度的主要影响因素包括:上架价格、车款、里程、过户次数等。具有过半的变量都对二手车售价存在影响,但当变量间存在共线性即变量间相互影响过高时也会产生这种现象而导致模型的分析结果产生误差。所以为了防止解释变量之间存在相关性,所以进行多重共线性检验。根据公式:VIF = 进行计算,一般认为VIF>10便存在多重共线性。变量的计算结果如下:

5-2 多重共线性检验结果

模型 变量名 VIF

加速失效模型(AFT) 上架价格 1.986566

as.factor(价格调整次数) 1.00737

减价率.百分之. 1.057215

匿名特征2 1.236516

新车价 2.000847

上牌日期 3.990347

展销时间 1.04486

过户次数 1.042072

里程 1.503969

年款 3.777073

as.factor(厂商类型) 1.099799

等比例风险模型(cox) 上架价格 1.978507

as.factor(价格调整次数) 1.007405

减价率.百分之. 1.057495

匿名特征2 1.236216

新车价 1.99448

上牌日期 4.002289

展销时间 1.04703

过户次数 1.042055

里程 1.507514

年款 3.783813

as.factor(厂商类型) 1.100355


可以发现无论是加速失效模型(AFT)还是比例风险模型(Cox),所有变量的方差膨胀因子(VIF)都没有超过10,所以并不存在多重共线性。证明模型可用。

根据模型结果解读可得,对销售速度影响较为显著的正相关变量有:上架价格、价格调整次数、上牌日期、过户次数、里程、厂商类型等;负相关变量有减价率、匿名特征、新车价、展销时间等。

这说明上架价格、价格调整次数、上牌日期、过户次数、里程、厂商类型等等变量对二手车的销售速度有促进作用,而减价率、匿名特征、新车价、展销时间等变量对二手的销售速度具有抑制作用。

为探究显著性变量对车辆成交的具体影响及影响大小的客观性,根据模型显著性的变量进行数据可视化,对具体的变量进行具体分析。

5.3 影响二手车销售速率显著特征分析

接下来对这些变量特征进行分析,并总结建议。


图5-2 减价率对销售时间的影响

绘制减价率对销售时间的影响直方图,如图4-2所示,降价率对销售时间的影响主要呈现正态分布,降价率在5%时销售时间最长,在40%时销售时间最短,但超过40%时销售时间有显著增加,个别车辆出现升值情况。结合模型减价率与销售时间呈负相关,得到结论,在0%-40%区间内减价率越高,销售时间越短,而减价率并非越大越好,超过40%的减价率可能让销售时间增长,且对于少数车辆,适当增值不会影响销售时间。

图5-3 价格调整次数对销售时间的影响

由图3-4可得价格调整次数对销售时间的影响呈现不明显的正态分布,价格调整次数在[0,5]区间上价格调整次数越多,销售时间越短,在达到5次价格调整次数时销售时间最短,但在[5,12]区间上价格调整次数对销售时间的影响呈现不规律,结合模型价格调整次数与销售时间呈正相关,得出结论在调整次数小于5时,调整次数越多,销售时间越短,当调整次数大于5时,调整价格次越多,销售时间可能越长。


图5-4 正相关影响图

由图3-5结合模型结果可得,过户次数越多,销售时间越长;1厂商类型的车辆的销售速度明显快于2厂商类型及3厂商类型;上架价格与销售时间呈反比,上架价格越高,销售时间越短;里程数与销售时间同样成反比,里程数越大,销售时间越短。

图5-5 负相关性影响图

由图3-6结合模型结果可得,新车价对销售时间的影响呈现不明显的右偏分布,在[0,15]区间上新车价和销售时间呈正比,新车价越高,销售时间越低;年款对销售时间的影响呈正态分布,在[2005,2012]区间上年款越新,销售时间越长,[2012,2020]区间上,年款越新,销售时间越短。匿名特征2对销售时间的影响无明显规律。

针对以上结果,可以调整上架价格、价格调整次数,其是对二手车销售速率影响最大的,其次为价格调整率;过多的价格调整次数、过户次数是对二手车销售速率呈负相关,会减缓二手车的销售速率 。

5.4 加快二手车销售速率方案

根据以上模型,我们探究出了影响二手车销售速率的主要影响因素,对于门店若想在短时间内理解模型具有一定的困难,故此本文章结合模型结果与数据可视化结果,将为加快门店车辆销售速度提出4个方案。

方案1:对于预期销售速度较差的车辆,且进行过多次价格调整,仍未卖出,建议直接降低售价,但降价总额不要超过上架价格的40%,预期这是对加快销售速度最行之有效的方案;

方案2:对于预期销售速度一般,且价格调整次数在5次以内的,建议价格调整次数不要超过5次,过多的调整次数可能会向客户反应出负面印象,从而造成车辆销售减慢,可以在4-5次价格调整时,适当加大降价比率;

方案3:对于目标客户已经明确的车辆,增加一次调整次数并增大降价率,有效把握客户心态促使车辆快速出售,对于少量升值空间的车辆,同样增加一次调整次数并小幅度涨价一次,一般情况下这不会影响销售时间,并且能使门店的利益最大化。

方案4:降低上牌日期较早,展销时间较旧,过户次数多,年款较旧车辆的上架价格或增加其降价率,因为其销售时间普遍较长,甚至直至下架都无法售出,这么做能有效加快其销售速度及出售的概率。



六、二手车市场研究建议

6.1 二手车价格评估体系构建

在此前的文章中仅仅是构建了二手车的价格预测模型,但在日常生活中,往往多个变量间实惠存在严重的共线性的,往往可以给不同的车辆性质赋予不同的权重。所以在研究二手车价格预测后,可以根据预测结果与销售情况,结合销售速率构建新的二手车价格评估体系,对不同价位的二手车进行统一标准的划分,以减少二手车市场中的信息不对称、不透明问题。

6.2 低价二手车重点分析

在进行数据清洗的过程中,我们发现数据中存在不少的异常值,经过查阅资料也发现,价格便宜是二手车热卖的主要原因,高价二手车往往存在二手车本身的性价比较低问题。所以针对二手车市场来说,低价二手车才是主要组成成分,也是影响二手车销售速率的最重要部分。对低价二手车进行研究分析,不仅可以提高二手车的销售速率,也可以更好地把控二手车低端市场。

6.3 客户满意度调查

影响二手车售卖情况的不仅有二手车本身因素,其中客户的个人偏好与兴趣选择也是主要原因,其中客户的年龄、家庭组成、收入等也都会对二手车的价格接受程度有所不同。对购买的客户进行跟进调查,不仅有利于扩充数据量,也有利于根据客户的评价指定准确的售卖体系和合理的定价策略,在提高客户满意度的同时增加潜在客户以增加二手汽车的销售速率。建立诚信的交易体系,树立优秀的品牌形象,加强全方位的客户互动也是提高二手车售卖的重要因素。



七、报告总结及应用

7.1 总结

本文基于二手车数据,对常用评估方法的进行介绍与比较,通过构建模型分析模型准确率与误差,选择出最佳的KNN模型进行优化与预测。

通过对数据中二手车销售速率影响因素的分析,构建了加速失效模型与比例风险模型,通过模型结果进行精细化分析,并提出了四个可行性方案。

但本文中仍有不足,如没有公开的二手车交易数据,如数据中的匿名信息,这也对模型的解读造成了许多困难。并且我国的管理体系中缺乏二手车交易市场的规范体系,对于二手车的定价及交易没有明确的标准。

7.1 应用

随着二手车市场的发展,对于二手车价格以及影响因素的研究越来越重要,根据对二手车市场的研究,我们文中制定了一个二手车估价模型,也探究了影响二手车销售率的主要影响因素,无论是对于卖家还是买家来说,都对于没有正式标准制定的二手车定价问题提供了很好的参考。

市场监管部门也可以根据模型中的预估价格,对于二手车市场的售卖情况进行监控。在文中研究时发现,存在许多异常数据与二手车价格高于一手车价格的情况。监管部门在发现溢价过高或售价过低时,可以使用影响因素分析模型进行分析。在发现出现异常变量时采取有效的行动,也可以有效的一直贪污福报情况的发生。发现问题并及时制止,为二手车市场的稳定长远发展助力。






八、参考文献

[1]王博. O2O模式下二手车客户满意度影响因素研究[D]. 郑州大学.

[2]李雪磊. 基于BP神经网络的二手车价值评估模型的构建及应用[D]. 重庆理工大学.

[3]李志强, 何凯宇, 黄晓蓉. 基于O2O模式的国内二手车销售策略研究[J]. 中国经贸导刊(中), 2020.

[4]王静娜. 基于随机森林算法的二手车估价模型研究[D]. 北京交通大学.

[5]江源. 基于机器学习的房价预测[J]. 福建电脑, 2019, 35(1):2.

[6]赵梦莹. 我国二手车市场发展研究[D]. 华中师范大学.

[7]袁汐. 二手车市场分析及价格评估[D]. 山东师范大学, 2020.







数据挖掘的二手市场研究分析的评论 (共 条)

分享到微博请遵守国家法律