历史惊人的相似,一次大选,传统的市场调查出现了严重的差错,这一次,统计调查理论很可能会发生明显的变化。
在此之前,还有很多人在坚持通过传统统计的方式来进行市场调查,准确性绝对会符合科学理论,也比大数据的“萝卜快了不洗泥”要精确。事实可能是这样的,但大数据给了我们更新的一个时代的最佳选择。
很多人把自己掌握的数据就成为大数据,因为自己的数据比较大,拥有数十百千万P的数据,可是,大并不是大数据的本质,大数据要看重的是跨界与全部。
特朗普当选美国总统被称为“黑天鹅”事件,而有关这次大选的民意调查也让人大跌眼镜,选前的各种民调几乎都认定希拉里大幅领先将轻松获胜,可结果是大相径庭。可以说,2016年的美国大选日成为了市场调查行业的又一黑暗的一天。
在1936年的美国总统选举中,美国的《文学摘要》杂志社为了预测两名总统候选人谁能当选,通过电话薄和车辆注册系统上的地址发出了1000万封调查信件,并且根据200万封回信得出了兰登将以57%对43%的比例胜出的结论,但最终结果却是另一名候选人富兰克林.罗斯福以62%对38%的压倒性优势胜出。那次预测的严重失误,葬送了一家著名杂志,但是却诞生了那家至今依然是世界上最著名的调查公司。
经过后来的复盘分析,《文学摘要》杂志当年所犯的错误,首先它的采样方法就带来了样本偏差,当时能用得上电话和汽车的,往往都是比较富裕的阶层,同时愿意回信的也大都是表达意愿比较强的人们,所以这个调查实际上针对的是比较富裕的和比较愿意表达的人群,而那些贫困的或者没那么愿意表达自己观点的人,并没有放弃自己投票的权利。
正是在1936年,统计学家乔治.盖洛普开启了科学抽样的总统民意调查。盖洛普的民意调查只有大约5万个样本,但在精心规划的样本中,黑人与白人、穷人与富人的比例都接近美国人的总体比例,最终,盖洛普准确预测了罗斯福的当选,并且奠定了自己民意调查权威的地位。
这样的经典调查方法持续了八十年了,在2016年再次面临拐点。在人们分析这次大选调查普遍失败的原因时,越来越看到,随着互联网的发展,沉默的大多数成为了影响调查结果的主导因素。也许,询问的方式已经真的要过时了。
直到今天,盖洛普等这些调查公司,仍然通过电话访谈来进行调查,每次大约访谈上千名拥有投票资格的公民。电话如今也不再是什么稀罕的东西了,调查公司还会通过电脑程序来随机选择受访对象,以确保每个人都会有同等机会被选到,他们还会在访谈之后根据美国人口调查数据来进行对比,调整权重以消除样本偏差。如此的调查看起来非常科学,符合统计学的规律,可是,在现实面前还是败下阵来。
据说,与大部分看好希拉里的主流媒体不同,印度新创公司Genic.ai 开发的名为 MogIA 的人工智能系统一直就预测特朗普将最终胜出。跟其他调查公司主要依靠访谈和问卷不同,MogIA的判断依据是收集自 Google、Facebook、Twitter 和YouTube等网站的超过 2000 万个数据点,尽管希拉里的竞选经费是特朗普的5倍,在付费媒体上的投入是特朗普的6倍,但在社交媒体上希拉里却始终处于全面劣势。虽然有人认为MogIA不能有效识别人们在这些网站留言评论中的“讽刺”、“反话”、“脑残粉”、“高级黑”、“似黑实粉”等细微之处,但这反而可能成为了MogIA的优势,很多时候,点赞、转发甚至只是阅读,关注,就足以代表了那些“沉默的大多数”的真实想法。
当然,2016年的美国大选,再次让大数据成为了热点,因为来自中国加工制造的特朗普与希拉里的面具数量早已透露了玄机。中国的社交网络上有这样一条消息:早在今年5月,浙江金华一家橡胶工艺美术厂,就接到了特朗普和希拉里的面具订单,随着竞选热度的提高,特朗普面具的订单已超过50万张,遥遥领先希拉里。
事实上,这一现象早就被阿里巴巴的数据分析师注意到了。从2月1日(初选开始)到特朗普成为共和党唯一候选人,在阿里巴巴全球速卖通网页上搜索“Donald Trump T-shirt”,就会出现各式印有特朗普的T恤衫。特别,这些买家普遍表现得很热情,晒买家秀,发表留言的,比比皆是,而且留言绝大多数都表示支持特朗普,反观有关希拉里的T恤衫就比特朗普朴实许多。整个竞选期间,特朗普在全球速卖通上的搜索次数还有周边产品的销量都已经甩了希拉里几条街。在相关产品页,特朗普遥遥领先,与特朗普相关的产品有11页,而与希拉里相关的产品只有短短3页。
因此,有人说,在大型体育赛事中,类似的数据结果也多次灵验。在2014年的巴西世界杯中,国旗订单量最大的就是德国的国旗,而德国果然最终夺冠。当然,我们并不应该将世界杯夺冠与美国大选并列,因为,对于美国大选来说,选民的选择是决定结果的充分因素,而在世界杯中,国旗的偏好只是代表了关注度和意愿,且并非决定性因素,最终的结果要靠球员的当场比赛的表现。
阿里巴巴国际站解释称,这是因为类似面具这样的大宗采购商基本都直接来自国外大的贸易商、批发商。厂方则介绍说,这些贸易商的采购需求大多直接来自于当地政府、党派和财团,也有一些有组织的粉丝团。所以从某种程度看,订单数量体现了当地人对不同候选人的支持力度。
不过,大数据的预测精准与否还取决于数据的全面性。如果候选人面具不是全部在中国生产,获得生产厂家无法得到全面的订单数据,预测就会出现偏差。即便数据全面,下一次的预测也很可能不生效。在这样的订单结果会影响最终成败的情况下,下一次肯定会有大量的掺水订单来实现数据扰动。
其实,美国的总统候选人或者调查机构也并不是没有看到大数据的价值。总统候选人们在进行分析的时候,所依赖的数据来源也不仅仅是民意调查结果,还涵盖了诸多的如facebook这类的社交网站和公开及私有的数据库。将美国超过2亿的选民资料,与大型网站与社交网络上的个人账号相互匹配起来,将网络行为对应到具体的个体,再和已经构成的、庞大的用户个人数据相结合,最终完全由准确数据来驱动竞选策略。以上这些,使得大数据分析技术成了两党候选人的重要武器,只是,在原来思维状态的影响下,还是犯了错误
不管怎样,2016年的美国总统大选都成为了新时代统计调查的分水岭,忽视大数据的力量而顽固保守的坚持传统科学的统计方式,将被证明已经落伍。当然,大数据的结果也并非完美,传统的统计科技并不会过时。美利坚大学著名历史教授艾伦.里奇曼评价说,“这是现代民意调查的诞生,也是老式民意调查的终结——直到互联网出现之前”。里奇曼认为互联网时代的民意调查又回到了1936年之前的状况:“没有科学采样,依靠选择性回复,这和我们今天所看到的网络民意调查如出一辙。”统计调查的方法将产生深远的变革,我们都还在探索的路上。
作者 马继华
声明:本文内容和图片仅代表作者观点,不代表蓝时代网立场。蓝时代 » 大数据重启,美国大选动摇统计学根基