超市怎么知道你怀孕的 | 相关性模型在商业中的应用一例
这是读《简单统计学》的第 5-4 篇文章。
「啤酒与尿布」是段子,「食盐-人口」模型不靠谱,那基于相关性挖掘数据就没有价值了么?
有的。
下面这个案例就是通过挖掘用户数据的相关性,建立分析模型,帮助公司更好经营的。
你怀孕了,超市知道
2003 年左右,一名愤怒的男子走进明尼阿波利斯的塔吉特超市:
「我要见你们经理,
「我女儿还在上高中,你们却给她发婴儿衣服和婴儿床的优惠券?
「你们是怂恿她怀孕吗?」
超市经理很迷茫,他查看了邮箱,发现塔吉特确实给这个男人的女儿发过育儿用品的优惠券,甚至还有孕妇服的广告。
经理只好道歉,但是在几天后回访的时候,这名愤怒的男子却有点不好意思,因为他的女儿真的怀孕了。
那么,塔吉特是怎么发现孕期女性的呢?
通过数据挖掘,寻找相关性。
塔吉特的统计人员发现,女性在备孕期和怀孕后,会开始购买大量的营养素和没有味道的洗浴用品。
购买行为和用户身体状态有高度的相关性,而且,还有一定的因果逻辑。
统计人员找出了大约 25 种产品,并据此建立了「怀孕预测」模型,估算顾客的预产期。
上面那个愤怒男子的事件,就发生在「怀孕预测」模型建立一年后。
塔吉特这个「怀孕预测」模型的案例来自《纽约时报》的一篇报道,标题是《公司是怎么知道你的秘密的(How Companies Learn Your Secrets)》,作者是商业调查记者查尔斯·杜希格,他也是《习惯的力量》的作者。

单看作者是不是就比较可靠?
而且这个案例有名有姓,十分具体,只有这一个版本,比「啤酒与尿布」靠谱了 10000 个特朗普。
不过,在杜希格写了这篇新闻并且把新闻摘要发给塔吉特之后,塔吉特就把杜希格拉入了黑名单,拒绝他的任何采访。这个举动,意味深刻啊。
那么,这个「怀孕预测」模型有效吗?
新闻里说,在基于「怀孕预测」模型的营销活动开始后不久,塔吉特的母婴产品销量就出现了爆炸式增长。
2002 年至 2010 年期间,塔吉特的收入从 440 亿美元增长到 670 亿美元。2005 年,塔吉特总裁格雷格·施泰因哈费尔(Gregg Steinhafel)也说,「高度关注吸引特定客户群体(如母亲和婴儿)的产品」。
所以,这个基于相关性建立的模型,是有效的,经过了市场验证的。
这么看来,数据挖掘还是很有用的嘛。
不过,先别激动,我们要吸取下「食盐-人口」模型的教训,做出一点怀疑。
毕竟「怀孕预测」模型的因果逻辑并不是绝对的。
比如,开始购买营养素、没有味道的洗浴用品,一定是因为备孕、怀孕引起的吗?
答案当然是否定的。
事实上,在《纽约时报》那篇新闻的评论区,就有反例:
一位没有备孕怀孕的女士,因为总是购买没有香味的洗浴用品和偶尔购买大包的棉球,结果收到了一盒婴儿配方奶粉。

导致这种错误的原因很简单,模型只是模型,只能去寻找符合设定的行为模式,然后做出行动。
更何况这个模型只是根据「相关性」建立的。
由于这位女士的行为符合了预测模型的行为模式,所以系统就机械的邮寄促销产品。
所以,基于相关性的模型并不是 100% 可靠的,也有一定的概率出错。
切记,相关性不代表因果性。
怎么避免商业营销模型的骚扰
虽然相关性模型不是 100% 准确,但现在个人信息的泄露还是难免的。我们在线下线上消费时,也总会被要求填写各种隐私信息。
垃圾短信删也删不完,推销电话也一个接一个。
那,怎么避免营销模型的骚扰呢?
很多的商业分析模型、营销模型都是基于相关性建立的,那么减少相关行为、避免被模型跟踪到就可以了。
比如,用现金,这样消费行为就无法被记录。当然这在咱国内是比较难的。
比如,用虚拟身份。
下次商家收集你的信息的时候,可以写自己芳龄 18,博士毕业,年入 1 个亿。也可以写自己 108 岁,时尚前卫,喜欢打篮球。
混乱的信息会让营销模型难以发现行为模式,也就避免了促销信息。
比如,用小号。
电话填小号、邮箱填小号,微博、微信也设一个小号。这样所有的促销信息都会关联到小号上,即使模型发现你的行为符合了促销的要求,也找不到你。
还记得《容易上当的人,都是聪明人》里面提到的内容吗?
寻找模式是人类的天赋。通过套用模式,我们可以更大限度的消除未知、消除风险。
各种分析模型也是寻找模式,而且相比人类,更加死板、机械化。
从相关性中发现的模式,确实能建立有价值的分析模型,塔吉特就是案例。
但很多时候,模式,特别是基于相关性的模式,并不是 100% 有效的。
所以发现相关性之后,还要考虑下两件事情有没有因果逻辑。
切记,相关性不代表因果性。