数据分析是一个很严肃的事情,但因为种种原因,很多数据分析者总是会犯下各种各样的错误,特别是在如今信息“快餐”时代,一些“萝卜快了不洗泥”就造成了更多的分析错误。
在任何的数据分析中,都不能违反基本的逻辑,强词夺理或者巧言令色都会在基本的逻辑面前现出原形。下面,我们就举几个简单的例子,看看这些社会上流行的说法到底错在哪里?
1、虽然这样做是不对的,但是其带来的好处是……,所以这样做是对的
网络上,经常会有人说,虽然…但是…,比如,在某个人或者某个组织做错了一件事情,甚至是恶意炒作造成了伤害之后,就会有人站出来说,虽然他这样是不对的,但是正因为他这样做,才带来了这样那样的好处,所以,他这样做是对的。在郭美美一案中,也在夏俊峰一案中,都有持有这样的观点的人,甚至这些观点还大行其道。
下面这一段来网络评论,一看就是典型的水军操作,在某篇分析某B2C购物网站也存在假货问题时,这位水军网友评价道:
真假暂且不说~完全可以尽量规避的~~ ####的隔日到 真心的给力啊。说良心话,相对而言,####售后是非常好的。请找出比####售后还好的商家,你找得出来吗?国内相对好的,网商只有####,实体也就是##。当然问题是有的,特别是第三家的买卖,因此有些商品我是必定只要####自营的。
如此,这个问题变成了,虽然这家网站也有假货,但是他送货快售后好啊,所以这家网站没错误,这样的逻辑真是让人啼笑皆非。功过不能相抵,优劣更不能互充,对就是对,错就是错,即便这样做事是有意还是无意的造成了间接的进步,也不能说这种行为是正确的。结果的正义并不能表明过程的正义,何况结果也不一定正义。
2、因为A很流氓,虽然B这样的做法也是流氓,但比A还是要流氓少一点,所以B这样的做法是好的
比比谁更流氓,这理论在互联网圈里非常流行,只要比同行或者同类流氓少一点,就可以认为自己不是流氓。实际上,五十步笑百步,不管是流氓多一点,还是流氓少一点,终归都是流氓。
比如,某手机企业或软件被对手揭发出来偷偷在用户的手机上安装用户不知情的或者根本不需要的软件,耗费了用户的流量,也增加了隐私信息泄露的风险,但该企业说,这样的做法太多了,我们做的是相对少的,其他家比我们更流氓。这样的结论也被各路媒体引用并认可,真是人心不古。
3、A占市场份额70%,B占市场份额为1%,但B最近增长了50%,可A只增长了30%,所以B对A构成了强烈冲击
市场很大,但能够引起社会关注的市场很小,所以大家就容易将目光聚焦到受人瞩目的领域或企业身上。与此同时,这些被聚焦企业的市场变化又不会短期发生太多的变化,于是,为了分析的需要,很多人对数据采取了过于“敏感”的态度,一点点细微的变化也会给放大或者无限的放大来看。
如同上面的例子,A企业的市场份额达到70%,B只是占到市场的1%,可以说,A占据了绝对的市场优势,而B可能仅仅是一家初创企业,因为基数和体量的差异,A增长30%已经算是高速之高速了,B因为基数小,寻找市场缝隙的机会也多,增长50%其实一点都不值得夸耀。但是,在很多分析中,有些人就得出B的发展态势比A好的结论,而且还可以说成是对A造成了巨大的市场冲击。
我们假设整个市场原有的容量是10000,A就是7000,增长了30%,绝对值就是2100,加到一起已经达到了9100,而B占1%,就是100,即便增长了50%,也只有50,现在是150,B与A的绝对值差距从原来的6900,已经扩大到了8950,差距拉大了2050,谈什么B冲击A呢?
4、A的市场份额是60%,B的市场份额是30%,C的市场份额是9%,D的市场份额是0.5%,其他公司占0.5%,这个市场已经是四强鼎力
电信市场和互联网市场有着天然的垄断特性,往往会形成巨头强势主导的格局,比如很多人讲的7-2-1分配。我们假设,在一个细分领域中,A的市场份额是60%,B的市场份额是30%,C的市场份额是9%,D的市场份额是0.5%,其他公司占0.5%。这个时候,有些分析师就会说这个市场已经是四强鼎力的格局。
如果这样的分析不是D公司自己做的,也一定是D的朋友们做的,从市场上看,整个市场可以看成是AB两强垄断才合适,至少也要是ABC三强的天下,至于D只是第二集团的领军企业,要想进入鼎足而立,还需要付出巨大的努力。
5、A是坏的,所以,A这次拾金不昧,也是很恶心的举动
这样的分析貌似符合逻辑学,但却真的是反逻辑,或者说是不尊重事实和哲学辩证法的。在这个世界上,好坏都是相对的,也几乎不存在完全的好和完全的坏,好人也会做坏事,坏人更是会有做好事的时候,哪怕是一瞬间的良心发现。
A虽然是坏的,或者被人深恶痛绝,或者做过的业务都是不成功的,但却不能认为其所有的行为都是坏的,更不能认为其以后做的任何业务也都不会成功。比如,某运营商常年来被批判,话费高信号差还经常强制用户使用付费应用,但这家运营商适应社会形势变化大幅度的对语音和流量进行降价,这怎么就不是好事了?如果非要还分析出降价多么的不对,就是存心找碴了。
由此推论,在很多人做分析的时候,总是依赖这样的自身逻辑,某公司很牛,所以某公司的产品都很牛,某人很牛,所以某人做的事情都很牛,也是不正确的。
6、一家公司有A和B两个产品,A有用户6亿,B有用户8亿,那么这家公司就有用户14亿
这家公司真的很牛,两个产品都有如此多的用户,所以很多人就把AB用户群相加得到了该公司的用户群数量。从数学上看,计算能力不错,但总觉得有点问题。
到底什么是用户呢?如果使用产品的叫用户,那么A的用户就应该指使用了A产品的人数,B的用户就是使用了B产品的人数,而该公司的用户就应该是指使用了该公司产品的人数。如果有用户同时使用了A和B两种产品,这应该算一个用户还是两个用户呢?
由此延伸出来,很多网站和互联网应用都喜欢用“活跃用户”这个概念,但活跃用户的准确定义可能在不同的公司不同的领域不同的产品是不一样的。
简单从字面理解,“活跃”应该对应的是“不活跃”,到底什么算活跃,什么是不活跃呢?如果我一个月仅仅登陆了一次,那算是活跃还是不活跃呢?恐怕,现在很多网站应用都是将活跃对比不使用了,属于语义模糊故意造成认识偏差。
7、A很牛,我和A合影了,所以我也很牛
右图有真相总是容易被人认可和相信,所以,很多人喜欢秀合影来显示自己的身份。当然,能有这些合影的人也确实都是牛人,但频繁的秀合影,就有点多了,因为即使你与某位牛人合影,也并不代表你也是牛人,更不代表这位牛人和你是朋友,或者记住了你的名字。
这个社会上,频繁与牛人接触,确实会助长自己比较牛的感觉,也往往会让自己飘飘然,觉得自己也已经是牛人圈子里的,比如那位号称拥有数十位国家元首政府首脑好友的央视名记者,只有身陷囹圄之后才发现,一切都是浮云。
8、今天某牛人接受了大家的采访,我也参加了,所以我专访了某某牛人
合影还好,至少表明这个人与某牛人零距离了,还有更不靠谱的,就是专访。不明就里的人看到某某专访了某某牛人,就以为是某某与某某牛人像央视《面对面》一样的一对一的访谈了两个小时,或者像东北的热炕头里撤了半天的大山。实际上,多数的所谓专访,都是一对多,这位号称专访了某某牛人的某某,只是众多参与者之一,甚至一个问题都没有提,或者离被采访者足有五十米远。至于专访的内容吗?其实和新闻稿或者公开谈话没啥区别。
9、某公司这一点有问题,所以某公司就是问题公司;某人有这个缺点被发现,所以这个人是坏的;我们调查了某某,他说没看到,所以这件事情就不存在
其实,这样的逻辑和前面分析过的有些类似,但却并不完全相同。我们很多人往往会陷入两个极端,一是认定这个人好,这个人做的都是好的,二是认定这个人有一点不好,就认定这个人都不好。实际上,两种思路都不可取。
证明一个人是好的,也许任何的举例都不成立,即便案例再多,也无法代表全部,但要证明一个是坏的,就仅仅需要一个点的证明就可以了。以点击面,是驳斥对方的好方法,但也容易导致走向以偏概全。
很多人,看似理性,非常善于抓住小细节和小辫子,总觉得自己聪明,可却只见树木不见森林。在分析中,典型案例的价值不可低估,但这个典型却应该是站在以面上的数据分析为基础之上,否则,就只是抬杠而已。
反过来,很多网络上的分析都采取的是以点击面的方式。比如,原来流传在飞船上能看到长城,后来,有人采访一个航天员,说你看到长城了吗,他说没有,所以,很多人就得出结论,飞船上能看到长城是谣言。有人说,西点军校挂过雷锋的照片,但最近有记者采访了一名西点军校的在校生,这位军校生说自己没见过雷锋的照片,所以,很多人说西点军校挂雷锋照片是假的。也许结论是对的,但论证过程却绝对不正确,如是用穷尽法,需要找到所有人进行何事,全部都否认,这个结论才成立。很多人拿非充分条件来暗示或者直接得出结论,在逻辑上是错误的。
10、A是好的,A是好的,A就是好的
这种分析思路就不需要讨论了,有些人就是这样任性,不管你说什么,就是要好话说三遍,我认定的就是对的。同样,这些人还会坚持,B是坏的,B是坏的,B就是坏的,你更没有办法反驳了。
数据分析需要掌握一定的基础知识,依照科学的方法来进行,任何错误的违背逻辑的分析都会带来有害的结果,更重要的是,任何的数据分析都需要站在客观公正的立场,不戴着有色眼睛看待事物,也不预设结论的进行分析,否则,数据分析就会成为欺世盗名的工具或帮凶。
作者 马继华
声明:本文内容和图片仅代表作者观点,不代表蓝时代网立场。蓝时代 » 自媒体文章逻辑分析中的十大忽悠