数匠专访|高级数据挖掘师工作经验分享
出品|爱数据LoveData(ID:cntongji)
嘉宾|简杨君
采访|夏天
编辑|小数
1、老师可以分享一下之前在大学和工作当中对于数据分析和数据挖掘这方面能力的培养和成长路径吗?
我大学专业是理工科专业,对于我现在数据工作是专业对口,早期也在传统行业行业甲方工作过,目前是在第三方的一个互联网公司。
整个从业经验是最早刚开始的时候,多是统计、数据报表为主,不断的熟悉会接触到甲方的数据,包括业务层的数据、移动应用端的数据,再从这个数据当中去推进企业经营的数据分析决策过程中,再到第三方,通过第三方的一数据统计去衡量行业的发展的状况。
就整个过程我觉得如果你是一个学生,在大学期间最好是以基础为主。比如说我们统计学院数学或者一些经管类学科的学生,可以在专业知识方面去加强一下,统计学知识是非常重要的,是一定要去学习的。在数据工作当中看数据需要,我们是需要去进行统计聚合分析的,都需要一定的统计知识。如果你是在学校缺乏一些社会经验,其实也可以通过目前参加一些比赛,比如说kaggle、阿里云的一些数据竞赛,去增加项目经验,或者以自己的兴趣爱好结合生活做一些分析,比如说租房真实情况,去做一些分析和挖掘,分析我们房价、地域、价格趋势,挖掘住房价格是受哪些因素的影响,预测房价趋势等,这些更贴近生活真实的一个场景,做这样的实践演练。
如果在工作中,相对比较综合的,也并不是前面我们讲的单纯的统计,不是只有统计学就可以做好我们的数据工作,其实还是要不断的结合在企业当中的一些业务场景去探索,去分析如何去驱动我们的企业使用数据分析或者数据挖掘的工具去提升效率,提升企业在经营当中的一个竞争力。
对于这块的一个发展,按照目前行业的需求来说,其实还并没有那么饱和,还是挺缺乏一些在这方面比较有专业知识的人,特别是像数据人才,需要结合我很多第三方的学科,包括材料、是生物、汽车,这些都在往数据驱动这个方向发展,包括我们的材料工程会使用模型去生成一些新的材料、我们的汽车会往自动驾驶的这个方向等,其实都是在展现的整个数据行业的发展,其实目前还是在处于发展中的阶段。
我当时从传统企业到互联网,当时处于在传统行业数据化的这个过程,包括我们启用一些数据系统,如何去就跟踪我们的运营的操作,所以我们在这个过程当中,学习了怎么去利用统计分析跟踪运营的情况,当时是在物流行业。其实物流这个行业是有涉及到一些车辆运营的路线,我们可以根据系统里面车辆的出发跟结束的这个点,能够知道这辆车的行驶状况,包括时间、准点、这些数据,相当于可以去跟踪到企业经理运营当中的运营情况,即使是在传统行业,但其实对过往的工作项目或者经验,积累和沉淀了原数据相关的方法论或者经验总结。互联网和数据分析关系十分紧密,我觉得在传统行业,目前的一个现状是比较缺乏数据化的这个过程。如果你想往传统行业数字化去发展,其实这里有很大的空间,因为传统企业在转型数字化的这个过程当中,需要去搭建基础的数据设施,包括如何去搭建、构建、采集、记录用户的信息等。
这个过程我觉得就是在传统企业当中可以去大力去挖掘的一个点,也是职场发展的一个机会点。
2、老师可以谈谈数据分析vs数据挖掘vs数据科学区别和联系吗?
【数据分析】
数据分析主要是用统计学的知识,对现有的数据进行分析,包括常见的描述性数据分析,探索性数据分析。比如我们会对每天每月每周用户数进行同比环比的对比分析、细分不同人群的交叉分析、以及我们可以利用数据可视化的方式去展示数据的整体情况,包括展示社交人群当中,他对于其他人就节点上的数据关联情况,其实这更多的就是使用到统计学的知识。
【数据挖掘】
数据挖掘其实有一部分是包含的数据分析的,因为我们需要对数据进行比较深刻的理解,是需要去分析数据的整体情况,包括探索性数据分析,是现在挖掘当中比较重要的一个环节。通过数据挖掘的算法从数据中挖掘有用的信息。例如通过算法去挖掘用户购买的商品之间的关联,什么样的用户是是高质量的用户等,这些问题都是需要我们从数据挖掘的角度去分析。
【数据科学】
数据科学是相对比较综合的,它既包含像前面讲的统计分析,又包含数据挖掘的算法,同时还需要借助大数据以及计算机编程来实现更多的数据提取和分析,也需要将模型进行部署,所以说数据科学是相对比较综合的。
如果说我们要来谈数据科学,它是涉及到数据中的各个环节,并不是单一一个环节,比如在企业当中需要去获取数据,它其实也是算是数据科学里面的一个环节。
3、什么样的公司会有数据科学家这样的招聘需求?
数据科学家更加多适用于相对比较成熟的一些公司,这类公司产品线特别多,需要利用数据来帮助公司进行决策,各个产品线如何利用数据工具提高用户运营效率等。对于一般垂直类公司,比如说他是做单一业务,基本只需要数据分析师来分析和挖掘更加贴切实际,因为如果需要运用到数据科学部,他是相对比较综合的。那如果企业达不到那个条件,工作内容当中会涉及数据分析和数据挖掘多一点。
像国内的一些大厂,包括腾讯、阿里巴巴,他其实有很多的产品线,产品线之间是有一些重复可以使用到的信息。例如淘宝天猫海淘,这三个产品都有一些共性,这是它属于购物的,那么在购物当中会有通过推荐或者广告流量来驱动用户去购买,所以多个不同产品,他本身是有共性的。对于这件事情的统一,就需要数据科学家去构建一个能够在不同的业务场景下的推荐的算法,这个落地执行是需要数据科学家去做这件事情的。
4、作为高级数据挖掘,您目前的工作内容有哪些?
目前工作其实一般分两部分,一部分是项目上的数据挖掘,另外一部分是产品创新。
项目挖掘,主要是在公司层面上面不同的一些业务需求。例如我们在一家游戏公司,想要了解到用户对游戏的偏好,一款游戏这个产品他的活跃用户怎么去做个分析这类;在产品创新上,以打车应用为举例,就是我们打算怎么将用户的使用场景进行归纳总结,这样我们可以分不同的使用场景去贴近用户的服务,比如在下班的途中、或者下雨天的这个场景下,那在这些场景下怎么样去更好的服务用户等。
核心的工作可以概括为:当客户描述有一个需求,比如说什么下降了,然后去给他们做分析,给他们解释这个原因,然后辅助他们接下来的运营动作;相当于根据他们现有的一个数据情况,给他们提供了自己的方案,也就是解释原因,辅助他们运营。
更多的偏向于非标准的一个数据挖掘,因为我们一般很多的项目其实不一定是能够产品化的,所以会走数据挖掘的这个形式去处理。创新是相当于为客户提供了一个数据产品,给他们做了一个数据产品。创新它其实根据不同的业务,创新的一个方式、使用到的数据都是不一样的。
我这里举一个应用的使用场景的分类,就比如说现在的客户是游戏公司,他们其实只能做一个初步的分析,大部分游戏公司是没有做数据挖掘这种偏技术的,然后他会找一些专业的公司来帮助他们更精细化的去分析,去挖掘。因为不是每一家公司他都能够搭建模型,能够做好用户画像。对于这样的一个需求场景,需要专业的技术和分析团队提供更好的服务,因为它结合了很多的用户使用场景。对于甲方的游戏公司,以用户注册的时候收集的信息为主,进行分析大概是这样的。比如我们会做竞品分析,同行业分析挖掘。
如果是作为投资项目,更多的是要去从海量的产品里面去挖掘客户想要的、能够体现这个用户整体增长趋势的分析,或者当前行业的兴趣方向等,它其实是分不同的公司的。
比如说开发一款游戏,得知道用户是对哪一种游戏会更加感兴趣一点,就是在产品还没开发之前会做一件事情,就是调研。因为你不可能说你等到你产品做好之后,发现这个市场价值嗯用户量很小,这个时候产品已经投入了很大的一个精力、成本。它是一个流程,从产品的开发之前的调研,然后到产品上线,再到这个产品整个的分析和挖掘。
我们就是使用数据解决公司在产品开发之前到产品开发中以及产品的生命周期的这些环节问题。
5、老师平时是如何展开工作的,可以分享一下吗?
我这里讲一个案例,比如说我们现在的客户是一家游戏公司,“这个月的的活跃用户数相比上个月下降了”,对于这个问题,我们首先是需要确定目标,我们需要去分析一下下降到底是什么原因产生的。
在这个过程当中,我们就需要去收集数据,包括我们这个月的活跃用户数多少,上个月的活跃用数多少,因为我们对于下降的这个概念是没有一个标准的,如果我们收集完数据之后,我们就能够知道这个月比上个月下降了20%,那么上个月比上上个月又提高了10%。
所以就可以看得到,如果运营当中没有去做更多的活动,以及运营策略的变化,它其实很难有这样的一个数据结果的,我们从收集到数据的这个过程,就可以慢慢的去挖掘这个数据是不是有这样的疑问,然后我们再去深入的挖掘。
再继续,我们需要去将数据进行拆分,因为前面只是满足了我们月的这个维度,我们也不了解他到底是那什么样的原因产生。就比如说我们的设备是会有安卓和ios 的,我们将用户机型进行拆分,就可以得到两个月的安卓跟ios活跃用户的比例,然后我们再进行对比分析,我们就能够发现,比如说发现安卓的用户下降了。
安卓活跃用户下降了,那么安卓用户下降有可能的因素,比如我们再去假设一个因素,这个月做了更新,然后这个更新可能会导致影响用户使用,就可以再从时间的维度上去去验证我们的假设,包括用户点击的这个时间节点,是不是跟我们上线的产品创建的这个时间节点吻合等。
以上主要是数据分析的工作。针对数据挖掘,可以这么理解我们想要知道什么样的用户才会流失,我们需要通过定义一个标准,也就是什么样的用户属于流失用户,定义完这个标准之后,我们去通过提取用户的一个数据特征,包括他的行为,再通过一些聚类或者回归的方式去把这批用户给找出来,这样就是通过挖掘的方式去进行工作。
数据挖掘更多的是从数据中去挖掘信息。如果只是分析相关或者因果,更多的是用到分析这个过程。但是如果想要使用的模型去识别我们的用户,就需要用到数据挖掘。
6、胜任就是数据挖掘变更工作,应该具备哪些能力?
首先有一点就是我们必须对数据有敏感度,这就是为什么我们数据分析、数据挖掘的工作,很多时候想要招的是工科生的一个原因,就在于他们会对于这种比较枯燥的数据,有更加高的数据敏感度。
文科生在一些数据的理解上可能会遇到困难,那么如果我们在有一定的数据敏感度,使用的我们的统计学的知识,其实是可以很快速的定位到数据问题,包括我们怎么去对数据进行处理,清洗等。
这其实都是工作当中比较重要,花时间比较长的一部分工作。另外的就是对于一些特定的场景,包括行业上项目经验。如果你是在游戏公司工作的,你肯定是知道用户的偏好,或者用户游戏兴趣爱好等,这些其实更有利于你在这分析当中假设建立。
另外的就是我们现在互联网比较普及,那很多数据的维度跟量级都是不断地在加深。这就增加了那个分析的难度。所以我们很多时候做数据处理,其实是会遇到一些困难的,包括我们在处理文本数据的时候,其实是一种半结构化数据,如果我们现在是会一门编程语言,就会更好一点。比如使用Python,或者更高级一点的算法模型,都可以在这个基础上去。
7、面试的时候会问面试者哪些问题?
从转行的和应届两种类型来说吧。
对于转行的同学,一般会考察他对数据的理解,以及之前的项目经验为主。
我们通过了解项目经验去询问他就如何通过数据去驱动业务的,或者说设定某个业务场景去展开如何进行数据分析数据挖掘。因为这一类的同学他本身就有工作的经验,包括行业的经验。所以可能我们会更加注重他怎么样去利用数据去驱动业务。
对于应届的同学,由于工作经验比较少,更多的是一些实习经验。所以会问一些比较基础的问题,包括统计学的相关基础,还有就是他对整个行业的理解或者看法,以及他的兴趣和个人发展规划。
8、搭建指标体系的过程,流程和难点老师可以跟我们分享一下吗?
要搭建一个产品的指标体系,首先需要有一个框架:搭建这个数据指标体系,需要明确是用来做什么的。例如是要用来指导我们的日常的运营做用户增长,这就是你做这个数据指标体系的一个目的。
有了这个目的之后,就可以把我们目标进行拆解,我们能够去做什么新的数据,以及去做什么。在这个过程当中的难点是对不同的数据的处理、理解、计算维度、颗粒度,都是需要去深入挖掘的。
因为不同的指标,它的适用范围、它的意义是不同的,那么要求你对一些数据指标是比较了解。然后另外的就是每个指标它的一个范围,包括他的影响程度也是需要去考虑。这些更多的会基于业务背景。
移动应用有一套比较通用的数据指标、一些垂直或者特定场景有自己的数据指标体系等,在这个基础上也需要你对业务有一定的了解程度才能更加深入的做好这个指标体系的搭建。
例如说短视频,短视频算视频行业的内容类,知乎这种也算内容类,但其实整个数据指标体系是不一样的。针对移动互联网它是有一套指标体系,比如 GrowingIO、神策他们把移动互联网大体是分为几个数据指标:
①拉新:通过各种推广渠道,以各种方式获取目标用户,利用技术手段,不断优化策略。降低获客成本。帮助市场推广部门衡量各个渠道的拉新效果,评估新用户的用户质量。
关键指标:点开率、安装率、激活率、注册率、留存率、付费率等。
②活跃:活跃用户指愿意为产品买单、消费,我们需要分析用户的行为数据,监控产品的健康程度。能够帮助衡量产品的核心价值。
关键指标:新老用户占比、DAU/WAU/MAU、日均登录次数、日均使用时长等。
③留存:衡量用户粘性和质量的指标。
关键指标:新用户留存率、老用户留存率、活跃用户留存率、流失率等。
④转化(变现):能够体现产品的商业价值。
关键指标:ARPU、ARPPU、付费率 等。
⑤传播:通过口碑效应,让用户之间自发互相引荐、营销。
关键指标:病毒式传播等。
首先是获取用户,即新增用户的这个维度;其次是新用户的活跃度,用户在这个阶段,会产生时间这个维度上的指标,比如说他活跃了多少天、活跃的次数、使用设施时长,这些都是考验用户的一个黏性的指标;那么活跃用户之后,他是否留存;以及后面的转化和传播,以上是移动互联网常见的关键指标。这个也是AARRR模型在指标体系搭建的应用方式之一。
另外挖掘型中,包括一些用户画像的指标,通用的指标体系包括性别、城市、年龄等基础信息。
再说下刚才提到知乎这类的内容平台,他们的指标还是有差别的。我们前面讲移动应用主要是移动互联网能的通用指标,对于不同的业务有自己的业务指标,比如说用户的阅读时长,这个是基于内容的类型来定,例如说体育、新闻这、美妆,有不同的内容标签和时长指标,不同的版块的业务好衡量指标内容是不一样;再说音乐行业,关注的是在付费用户这一块,会有两种模式,一种服务按时长的订阅,一种是按照购买新服务的,对应不同模式下的指标也会有一定的区别。
如果单说内容上,大部分更多的是说用户在这个内容上广告的一个点击率,会衍生不同的一个数据指标出来。
爱数据社区直播
互联网业务指标介绍与案例分享
9、数据岗位的职业发展与规划方面,老师可以分享一下您的经验吗?
首先是对行业的喜好,就是说如果你这个不感兴趣,会觉得数据是很枯燥的。如果进入这个行业,在这个行业发展,需要去坚定数据是能够驱动企业经营分析的。
然后怎么样去做我们的职业规划呢?因为我早期更多的做一些基础的工作。当你对整个数据分析数据挖掘流程比较熟悉的情况下,那你肯定会构建一个整体的框架,怎么样去完成这些事情,或者说用一个通用的方式去做这些事情。
那到了职业发展阶段,一般会分两个方向,一是往管理的方向,另外一个技术方向。如果你是喜欢做沟通交流,能够去跟进整个项目,是比较适合管理这个方向的;如果你是对算法或者对一些技术比较感兴趣,把它研究比较深,你可以往技术这个方向走,技术这个方向往后例如说技术顾问。所以我觉得应该是分阶段来讨论这个职业发展方向的,初入职场,一定先做一些基础工作,打基础学习阶段掌握技能,以了解整个行业的状况为主。
那后期肯定是需要去往管理或者技术方向继续提升。刚才有提到管理岗和技术岗,比如说数据产品经理,他其实偏向于要去沟通、跟进项目;像如果做一些开发类的工作,这个属于技术类。对应管理和技术有,不是完全独立,尤其越往上发展,管理和技术只是说侧重点不同。比如数据科学家,他是一个相对比较综合的岗位,有的情况下也可看成是管理岗。因为具体落地不一定需要他去做,是需要主导团队来完成,他需要对这个业务、算法十分的了解和熟悉,因此说他能够主导这个项目交付才是关键。
对于技术岗,一些前沿算法,以及能够在这个场景用什么样的算法,怎么样去做优化,是需要比团队其他成员这方面更加了解和熟悉。
10、老师可以谈谈一下数据挖掘和算法的关系吗?
算法工程师工作其实是非常垂直的,因为他核心是做算法模型的。但是数据挖掘需要去考虑很多的业务场景,选择用什么的算法来实现他的一个挖掘。
如果你是算法工程师,需要计算出最优路径,这个就是很特定的需求,他不会去考虑到底用这个东西去提升什么。如果是做数据挖掘的,我要用最短的路线,能够去判断这个用户到底是属于什么样的用户。
在企业当数据挖掘更多时候是做一个探索,或者设定一个基础模型。但至于这个基础模型的性能或者效果,它不一定是最好的。这个时候算法工程师他会基于自己的理解,会重新设计,比如说新的一个算法去优化这个场景下的效果。
算法工程师更多的对接的是产品,数据挖掘一般用的都是比较成熟的算法,现有的就已经满足需求,不一定是需要用到非常之复杂的。但是如果你是做算法的,例如说人脸识别,这个场景加了一个口罩,那对于产品来说,需要去做这样的识别;这个时候不需要挖掘工程师来掘用户是不是带了口罩,具体案例来说明更多的是技术实现方面做的一个算法工作。
总之,在上面的案例里面,产品有这个需求,是通过算法工程师来实现,可以把产品的需求是为了满足对外;了解产品服务的用户情况,进而辅助经营分析需要数据挖掘,这个可以理解为对内,可以这样理解一下算法工程师和数据挖掘工程师。
11、转行以及应届的同学想从事数据岗位,老师可以给爱数据社区小伙伴有一些建议吗?
如果你是在大学,那肯定先接触学习统计基础知识会比较重要一点。如果有时间条件参加多一些比如说数据竞赛,能够提升项目经验,或者说利用的数据做分析挖掘,当你在求职的时候,有一个具体的案例来体现你的数据能力。我也觉得这是在想要去从事这个方向的同学需要去做的事情。
转行的同学,首先你有一定的行业经验,基于这行业经验你能够用数据去做什么样的事情,你这个事情是需要去做准备的,或者说你跨了一个行业,你能够从原来的行业或者以你现在的适应能力能为这个行业带来什么,或者能够做什么事情,就是需要去思考或者做好一个准备。
数匠访谈介绍
《数匠访谈》是爱数据社区一档针对一线各行各业资深数据从业人员进行的深度访谈的栏目。 爱数据社区《数匠访谈》旨在分享:在数据作为新的生产资料和驱动力的数字化时代背景下,数据从业人员如何发挥数据价值的见解和洞察,共同探讨数据应用与发展趋势等话题。 访谈嘉宾均来自:一线各行各业的资深数据分析师、数据产品经理、数据开发工程师、数据建模专家、算法工程师、数据仓库架构师、数据总监等,行业覆盖新零售、O2O、电商、互联网、教育、物流、金融、信息流、医药等。 《数匠访谈》通过深度访谈一线资深数据从业人员,整理发布数据嘉宾的实战工作经验、行业洞见和先进的数据技术,为入行数据从业者、数据爱好者提供宝贵意见,为行业发展起到积极促进作用,进而达到数据人才价值实现,推动数据产业发展。

