欢迎光临散文网 会员登陆 & 注册

花2万多刚学完的数据分析师课程全套,视频分享给大家,Python数据分析入...

2023-08-13 23:50 作者:subarashiiii  | 我要投稿

数据(data):指未经过处理的原始记录.

数据体系维度,数据标签.

用户数据属性需要跟用户互动了解.

积累数据资产

当数据资产积累到一定程度时

需要用单独的数据库存储数据

  1. 数据维度数量
  2. 数据维度复杂性
  3. 单维度数据数量
  4. 单维度数据判断精准性

数据小体量需要了解行业,大体量需要技术处理.

数据变异性

数据规律性

正态分布:均值,中位值,众数

数据图表标尺变化影响表达效果.

优秀数据分析师特性

业务的了解

业务指标

工具的使用

品牌商:excel,SPSS

互联网:python,R

业务人员:简单软件,简单技术强调可复制性

管理层:复杂软件,复杂技术强调单一价值性

表达

口头表达

工具表达

数据描述表达->业务决策表达

数据分析四个步骤

数据抓取

埋点:在应用中特定的流程收集一定信息,用来追踪应用使用的状况,后续用来进一步优化产品或是提供运营的数据支撑.

爬虫:按照一定规则,自动地抓取互联网信息地程序或脚本.

API:应用程序接口,是一些预先定义地函数,可以在无需访问源码地前提下,使应用程序地开发人员基于某软件或硬件访问地一组例程.

数据清洗

数据质量分析

  1. 缺失值分析(空值|遗漏值)
  2. 异常值分析(离群点分析)
  3. 一致性分析(矛盾|多数据源数据)

数据分析

数据可视化

描述性分析->诊断性分析

业务应用

互联网数据分的基本思路

找出问题->分析问题->解决问题

一维数据

只有单一属性的数据.一般单纯用在数值比较和趋势分析上.

优点:直观简洁

缺点:信息有限

二维数据

拥有两个属性的数据

用在比较和分析两种不同属性的关联度上

优点:组合方式多,使用面广

缺点:无论怎么组合分析,都会产生信息遗漏.

三维数据

拥有三个属性的数据

用于分析多属性对象的

优点:信息量大,结论清晰

缺点:对于细节仍无法面面俱到

多维数据

拥有多个属性的数据

用于分析任何复杂的运营的问题

优点;信息完整面面俱到

缺点:数据分析手段复杂,需要较高的数据分析能力


数据挖掘

寻找数据中隐含的知识,并用于产生商业价值?(找不到隐含知识或产生不了商业价值就不是数据挖掘了?)

数据挖掘用处

分类问题

对已知类别的数据进行学习,为新的内容标注一个类别.(党争问题?)

聚类问题

聚类的类别预先是不清楚的,比较适合一些不确定的类别场景.(跟分类问题差不多)

回归问题

生成的结果是连续的(分类是回归的一部分?)

关联问题

推荐

数据挖掘方法论

业务理解(Business Understanding)

理解你的数据要解决什么业务问题

从商业或业务的角度去了解项目的要求和最终目的

分析整个问题涉及的资源,局限,设想,风险,意外...

从业务出发,到业务中去(感觉这个是管理层做的工作.)

数据理解(data understanding)

在业务理解的基础上,对掌握的数据要有一个清晰,明确的认识(感觉还是管理层的工作)

数据准备(data preparation)

基于原始数据,去构建数据挖掘模型所需的数据集的所有工作

数据收集

数据清洗

数据补全

数据整合

数据转换

特征提取...

(以上不会是一个人都做得吧,一个人做六个人的工作,这工作就是打工层要做的吧?)

构建模型(Modeling)

训练模型,重点解决技术方面的问题

选用各种各样的算法模型来处理数据,让模型学习数据的规律,并产生模型

模型评估(Evaluation)

模型部署(Deployment)

部署是一个挖掘项目的结束,也是一个数据挖掘项目的开始.

理解业务和数据

思想问题

确保自己已经具备了一个专业的数据挖掘工程师的思维模式

避免对业务的轻视

数据挖掘人员需要真正理解业务场景与挖掘需求(双方画大饼?)

技术在业务上绝不是万能的

数据不完美(完美还需要什么数据分析)

数据挖掘项目通常都是跨团队的协作项目

数据挖掘只能在有限资源与条件下去提供最大化的解决方案.(怎么和前面说的不一样了...)

理解业务

确保与业务需求方的充分沟通,对业务需求的充分理解

在进行数据挖掘之初就要去明确业务背景和业务目标

展开沟通,并成立专家小组来对目标进行评审(项目调研)

理解数据

确保对可以掌握的数据有全面的了解,知道哪些数据有用,哪些数据没用

是否有这样一个数据集来支持你做这样一个模型,来完成这样一个需求,来回答业务问题

数据量的不同会影响处理方式

需要考虑的是这些维度是否可以支持完成业务需求,是否与所提出的问题有关系

标签.每条数据需要有结果的标注,这也是模型或算法要学习的结果

准备数据

找到数据

数据探索

数据清洗

缺失值处理

删-补-不处理

异常值处理

数据偏差处理

导致模型过拟合或欠拟合

数据标准化

对数据的标准进行整理

可以防止某个维度的数据因为数值的差异,而对结果产生较大的影响.

特征选择

尽可能留下较少的数据维度,而又可以不降低模型训练的效果

构建训练集与测试集

留出法

交叉验证法

自助法

模型训练

分类问题

分类是有监督的学习过程

二分类

多酚类

多标签分类

一条数据可以被标注上多个标签

算法

KNN 决策树 随机森林 SVM

聚类问题

无监督的

一个数据集划分成多个组的过程

互斥:一个用户只存在于一个小组中

相交

层次

模糊

回归问题

高尔顿发明

关联问题

无监督学习

挖掘隐藏在数据中的关联模式并加以利用

模型集成

Bagging(装袋法)

Boosting(增强法)

Stacking(堆叠法)

模型评估

对模型进行多种维度的评估,来确认模型是否可以放到线上去使用

真阳性(True Positive TP)

样本的真实类别的正例,并且模型预测的结果也是正例

真阴性(True Negative TN)

样本的真实类别的负例,并且模型预测的结果也是负例

假阳性(False Positive FP)

样本的真实类别的负例,并且模型预测的结果也是正例

假阴性(False Negative FN)

样本的真实类别的正例,并且模型预测的结果也是负例

准确率(Accuracy)

所有预测正确的占全部样本的概率

(TP+TN)/(TP+FP+FN+TN)

准确率(Precision)

预测正确的结果占全部预测成"是"的概率

TP/(TP+FP)

召回率(Recall)

该类别下预测正确的结果占该类所有数据的概率

TP/(TP+FN)

F值(F Score)

准确率和召回率的调和平均值

2*(Accuracy*Recall)/(Accuracy+Recall)

ROC曲线和AUC值

业务抽样评估

泛化能力评估

反映的是模型对未知数据的判断能力

过拟合(overfitting)

模型在训练集上表现良好,而在测试集或验证集上表现不佳

欠拟合(underfitting)

在训练集和测试集上的表现不好

模型速度

评估模型处理数据上的开销和时间

鲁棒性

主要考虑在出席那错误数据或异常数据甚至数据缺失时模型是否可以给出正确的结果,会不会导致模型运算的崩溃

可解释性

需要给出一个让人信服的理由

评估数据的处理

随机抽样

随机多次抽样

交叉验证

自助法

模型应用

模型的保存

存放位置->名字定义->模型使用算法,参数,数据,效果...

模型优化

效果不降低的前提下,适配应用的限制

花2万多刚学完的数据分析师课程全套,视频分享给大家,Python数据分析入...的评论 (共 条)

分享到微博请遵守国家法律