用好增强分析,数据分析事半功倍

如果还没有听过增强分析的概念,那么你在数据分析领域的信息可能需要更新了。
在蚂蚁集团工作的4年期间,伴随着内部的分析平台从单纯的可视化工具,一步步开发出增强分析的各种能力和组件,我始终是第一批吃螃蟹的那拨人。
今天就和大家聊一聊,增强分析给我的日常工作带来了什么样的变化,顺便展望一下未来的趋势。
1 什么是增强分析
增强分析,是由全球最具权威的IT研究与顾问咨询公司Gartner,在2017年提出的一个概念。
增强分析指的是利用机器学习和自然语言处理的技术,将数据准备、洞察展现等过程自动化,从而降低数据使用门槛,让业务人员也能完成数据交互,得出分析结论。
大家熟悉的Tableau、PowerBI等可视化工具都在探索增强分析的应用。
2017年,我在蚂蚁的客户体验和权益保障事业部做数据分析。当时数据团队频繁遇到需要对单个指标进行多维度下钻并计算贡献度的分析场景。
于是我们找到了内部的DeepInsight分析平台技术部门,在2018年初,合作产出了第一个分析组件:树状图,迈出了增强分析的第一步。
接下来以蚂蚁集团内部的分析平台为例,对比一下增强分析和早期的可视化,有什么不同。图片出自《蚂蚁企业级BI增强分析白皮书》。

平时我们用到的可视化图表是这样的:

而在增强分析的帮助下,我们能够快速获取不同时段、不同维度的统计数据、同环比变化、贡献度和事件归因:

2 增强分析,强在哪里?
早些年,可视化工具的后台处理能力还十分有限,导致我们画图的时候,只能接入清洗好的统计数据。
数据分析师的工作流程一般都是:想好要画什么图->清洗出对应的数据->可视化后台接入数据源->绘制图表。
想展示全国每个城市的销售额,需要洗出一张销售额统计表;想展示每个商品大类的毛利,就再洗一张毛利统计表。
假设某天业务突然提出,想要在一张图里面,看到每个商品大类的毛利和毛利率,数据分析师就要重新洗一张表。
如果某类商品的毛利率下滑,业务想知道具体的原因,那么这张图没法解释,数据分析师只能再次清洗数据,做下钻分析。
而增强分析的后台能够接入几百万行的明细数据,后台计算以秒级响应,展示在前端的图表上。
有了强大的算力支持,加上增强分析内置的计算字段功能的升级,很多需要在数据清洗阶段完成的计算(比方说排名、留存率等等),现在也可以放在可视化的后台去做了,这样就大大的提高了分析的灵活度。
回到上面的业务需求,只需要接入一张包含销售和毛利的明细表,通过计算字段的功能,设置出“毛利率”(毛利/销售额)这个指标,就可以满足了,不需要再次清洗和接入数据。
更方便的是,只要这张明细表包含商品大类的下钻维度(例如商品SKU),就可以实现毛利率的下钻归因。
由于所有数据都来自于一张明细表,数据一致性的问题也能得到很好的解决,再也不需要开会之前先拉着各方对数据口径了。
一些描述性的统计,以及贡献度的计算,都可以由增强分析后台完成。所见即所得,业务截个图,直接就能拿去用。
我在阿里做社区团购业务的时候,就是靠着这样一张明细宽表和增强分析,搞定了业务80%的日常看数和分析的需求。

以下列举了这张宽表能支持的部分需求:
1)DAU、新用户、客单价、GMV等核心指标的数值与趋势,有业务目标时,还能追踪完成进度;
2)每周GMV的波动归因,by 区域、商品品类、地推人员... 用到的组件形式如下,每张卡片包含实际数值和变化率,能够按照表字段之间的映射关系展开到子节点,并展示对父节点的贡献度;

3)不同营销活动的达成情况与GMV贡献;
4)商品的坑产,不同区域卖得好的商品SKU;
5)xx区域因特殊原因交通管制,无法履约,需要导出批量退款的订单;
6)不同网格仓,购买了冷藏冷冻品的用户,退货件数占比与7日留存率的相关性;
我就是用这个分析证明了某个城市的网格仓服务质量存在问题,帮助省域负责人推动一个网格仓更换供应商,一个网格仓更换地址,和业务建立了良好的合作关系。
详情可以参考去年11月2日,《业务方知让我取数,不听我的建议怎么办?》这期内容。
7)疑似刷单的团点、用户、商品清单
3 如何用好增强分析?
不难发现,增强分析能够发挥这么大的作用,主要就是在于这张宽表的搭建。
这一方面需要比较完善的数据基建;另一方面,对于数据分析师的业务理解也有很高的要求,知道哪些维度对于业务的分析是有参考意义的。
以上文提到的疑似刷单为例:
为什么会出现刷单的现象?是因为平台为了获取新用户,会拿出少量SKU(例如:鸡蛋、土豆、可乐、抽纸、牙膏等等)来做新人活动,牺牲部分利润,以获取用户的增长。
而可乐、抽纸、牙膏这类保质期长、易存放、销路广、不愁卖的商品(俗称标品),一旦活动价格打得过低(例如:一罐可乐券后仅1元),存在套利空间,就会吸引一些商家或者黑灰产批量注册新账号,统一下单到一个团点,用于囤积货品。
因此,刷单的行为,在数据上会有如下特征:
某个新人活动单品(如可乐)的件数占比过高
这个单品的销售集中在少数几个团点
这些团点几乎没有老用户下单,新用户占绝大多数
这些新用户只买了一件新人活动单品,没有购买任何其他的商品
我们就可以按照这样的排查顺序,做出可视化看板,利用增强分析,对单品件数占比的异动设置提示,然后业务就可以自己查看并采取行动了。
通常地推主管会安排对涉事团点的排查,必要时进行强制关闭;营销和商品主管会重新评估商品的活动力度,防止出现负毛利的情况。
归根结底,社区团购做的是存量用户的复购生意,前期牺牲利润以获取用户的增长,不是为了DAU和新用户的数字增长,而是为了获取未来有可能长期复购的真实用户。
所以,对用户健康度的关注,对于业务的健康发展有至关重要的作用,是早期的一项重要工作。
而有些区域,为了完成新用户的目标,甚至故意变着法儿纵容刷单的行为。我和部分区域的地推小组长聊过,他们都开玩笑说是化学拉新。
一段时间后,这些区域的DAU、GMV,都呈现出非常不健康的形态,无异于自毁长城。
因为业务早期发展,需要关注用户的健康度,所以需要对刷单行为进行监控;因为刷单有上述的业务逻辑,所以明细表中,需要是否新用户、商品SKU、团点id、团点所属地推人员等维度的字段。
以上就是设计明细宽表时的典型思路。
有了增强分析之后,业务就不需要因为日常的一些指标统计、波动归因等问题来麻烦分析师了,数据分析师是不是就没事做了呢?
我把节省出的时间,用来深入研究核心用户该怎么定义,他们经常购买什么样的商品,是怎么一步步对平台产生粘性的;我对现有的指标体系进行优化,让每个职能团队都和总目标产生关联,通过数据辅助的方式,解决团队中的协同问题。
这类事情,才是数据分析师产生深度业务价值的体现。