数据会说谎编辑本段回目录
数据解读是数据分析最重要的环节,数据不会说谎,说谎是来自于数据误读。
很多公司招聘数据分析只强调数据处理,对数据解读无法评估,就会带来数据误读,从而产生“数据会说谎”的结论。
我也说几个真实案例,来自工作中的真实案例 。
1. 通过可控的客户端采样监测,得到了一定样本的,包含Google搜索url特征的日志记录,得到Google的搜索量;同样的样本下,采集到包含Google Adwords广告url特征的日志记录,得到Google的广告点击数。
那么,理所当然一厢情愿的 用点击数/搜索量,得到点击率。
但是,这个点击率是显著错误的,理由是,Google的Adwords广告点击,并不只发生在Google的搜索结果中!当时的情况是,点击率被高估了一倍。(其实已经区分了Adsense和Adwords广告点击的url特征,但是Adwords也会出现在其他网站)
对数据逻辑及相互关系的理解不透彻,就会带来错误的解读。
2.反欺诈点击,有一定的点击过滤策略来进行,引入一种新的过滤策略,会带来更加严格的过滤,于是按照新的策略跑一遍旧的日志,得到结论,额外过滤了若干点击,价值若干,会导致收入下降若干。
但是这个结论是彻底错误的。当严格的策略执行之后,客户对该系统信心增加,竞价价格提升,广告预算提升,收入不降反升。
这也是有实际数据佐证的,简单结论是,单方面做数据推算,而忽略了与用户、客户的交互影响,就会做出错误的推断。
3. 某同事,名校计算机博士,算法达人,做了一条曲线,A和B高度相关,得到结论,A会导致B,看一眼结论我就骂人了,狗屎结论,实际上是A和B均受C的影响,所谓高度相关是C的因素带来的,这是只看数据不懂业务的典型。
4.样本偏差,特典型的就是沉默的大多数现象,简单举例,去IT论坛,发个投票,百度好不好,腾讯好不好,多数人会说不好。但是真正的用户是不会去IT论坛,更不会参与这种无聊的投票;所以这种投票得到的结论,你要真信,你就傻了。
此外,还有比如送礼品的票选,喜欢这种礼品的用户,本身就有倾向性,如果票选内容与礼品有关,那么结论显然是不可靠的。
5.有人提到预测未来,补充一点,就是用户不知道自己的未来。这也是普遍做样本调查容易产生的误区。如果时间前溯10年,你问一个用户,你会去买苹果手机吗?他肯定会说,你是不是疯了。但是当真的很酷的苹果手机放到他手上,他才会有感觉。
这是有真实案例的,十几年前,手机还叫大哥大,还是大款们才特有的玩物,真有调查公司跑到路边采访行人,说你需要买手机吗,行人纷纷表示不需要。他们不知道这玩意对他们人生的改变有多大。10年前,又有类似的事情,上网当时被认为是不务正业的表现,报纸媒体开始忧心忡忡年轻人的网瘾和被网络的伤害;然后又有媒体去采访,很多人表示,上不上网无所谓。这些都是当年一些新闻电视里出现过的典型场景。如果你相信,你就真完了。
这里的问题是,用户不能预知技术的发展和对人类群体乃至自身的改变;当然,有的人能看到,1997年,还在读书,我一直纠结大学毕业能做什么,第一次接触到了互联网,我坚定,这是改变人类的东西,这是我一辈子的职业。
简单分享,数据解读,要对业务有理解,对交互影响有理解,对数据背后的逻辑有理解,减少误读。数据不会说谎,误读来自于理解错误。(曹政/知乎)