数据质量决定AI的未来 云测数据掀起的行业飓风

AI被认为是最有可能的新工业革命引爆点,各国都在此方向积极投入参与竞争,中国当前的竞争位置还很不错,当在两强之一。AI发展需有三个要件,即算力、算法和数据,这其中算力属于基础设施能力,算法可算是基于基础设施之上运作的工作方法,而数据则相当于用来指导算法运作的依据。从一个可以完整运作的AI应用来看,没有算力则算法和数据跑不起来,没有算法则数据没有执行通道,没有数据则算力和算法就成了摆设,而目前人工智能发展的阶段恰逢算力和算法充足,AI数据十分缺乏,毫不夸张的说如果没有高质量的数据,人工智能将没有未来。

 

有数据人工智能才能跑起来,但数据的质量高低,对AI是否好用起到决定性作用。当前AI发展对于数据的需求非常大,但对于AI来说数据量并非等于数据质量,只有高质量的数据才能对算法起到决定性作用,进而产生生产力,而质量一般的海量数据对AI不但无利反而有害。大数据行业之前有对大数据去噪的作业流程,而到了AI时代,随着AI公司对高质量数据的需求不断加大,数据标注开始形成一个行业,在AI发展中担当越来越重要的作用。云测数据,正是这个行业中的头部企业。

 

像百度、阿里巴巴这样拥有海量数据的企业,更需要将数据进行清洗、标注,把海量数据加工成有价值的数据。更不用说人工智能产业落地前夕,AI需要更多还原特定场景的数据。这对于轻资产的AI公司来说用人力去做成本太过高昂,因此AI公司多将此类工作外包。由此而产生了一个以数据标注为核心的AI数据服务市场。根据艾瑞报告,2018年AI基础数据服务市场的规模约为25.86亿元,并预测到2025年这个市场的规模约为113亿元。这是个高速增长的市场,有多家企业涉足其中,为AI行业的发展提供最不可或缺的服务。

 

数据标注行业从性质上看偏劳动密集型,因为主要工作过程都牵涉到人力。举一个例子,谷歌大脑当年曾成功从视频中认出了一只猫,为此所付出的算力代价则是16000台电脑学习了1000万张图片。在当前的算力情况没有突破性进展的情况下,这个案例是无法落地应用的,因为仅仅认出一只猫就要机器学习这么久,要是认一间屋子里床上的一只猫呢?从应用角度来说算力成本太高,难以推行。将这个案例投入应用的唯一办法,就是采集和标注大量猫图片训练算法,以提升效率。这只是数据标注行业的某个单一工作场景,还有更多更复杂的数据需求。

 

当一辆自动驾驶的车行驶在路上时,有可能遇到的情况有哪些?由于智能驾驶领域的的特殊性,其算法模型要求能处理任何常规情况和突发情况,条件是要在数据上尽可能对其加以满足。前后左右来车,这是最常见的简单场景,目前自动驾驶发展的阶段可以作相应处置以避开,但如果车前方飞来一只鸟,或走来一个撑雨伞的人,这就属于非常见的复杂场景了,任何互联网公司也没有此类数据,只能靠云测数据等这些数据服务公司进行特定场景的数据搭建采集。自动驾驶的车要保证安全,就需要后台的AI数据尽可能将任何在公路上可能遇到的情况容纳进去,有些情况发生概率接近零,但只要不是零,自动驾驶的车的算法模型就需要这些数据。一个例子是,特斯拉曾有辆车在自动驾驶状态下车毁人亡,原因是自动驾驶系统没有辨别出前方白色车辆和天空的区别,导致自动刹车没有及时制动,一头冲了过去。

 

随着AI应用落地越来越广,相应的高质、精准、安全数据的需求量也在直线上升。创建于2011年的Testin云测从应用测试业务出发,在服务了超过一百万家企业之后,经过行业前瞻判断,抓住机会顺应市场趋势进入了AI数据服务领域,成立数据标注业务品牌云测数据。通过自建数据场景实验室和数据标注基地,为智能驾驶、智能家居、智慧城市、智慧金融、零售等领域提供定制化的数据采集、数据标注服务,全方位支持文本、语音、图像、视频等各类型数据的处理。在很短的时间内,云测数据已成为国内AI数据标注服务市场的第一名,目前市场上主要的AI企业均是其客户。

 

云测数据可以说是随着一个应用人工智能市场的成长而崛起的,其目前的市场地位除了顺应趋势站上风口之外,还有长期耕耘To B市场的流程化管理和人员协作经验的继承,而云测数据在开拓新业务时有章有法,是一个更为重要的原因。一个新生市场在初期时往往是野蛮生长期,监管缺失,市场认识不足,都会导致这个市场内乱象横生。企业为了尽可能拿到市场红利,往往会只盯住增长而放任其他方面不管,甚至采用一些非常规手段来保证尽快增长,但云测数据在AI数据标注服务这一行的征战,显然没有走这条看似常规的路。

 

需求定制是云测数据商业模式的核心,无论是数据标注还是数据采集,云测数据都发展出一套科学的生产与管理流程。云测数据在华东、华南、华北等地自建的数据交付中心和数据采集基地,在提升了数据生产作业流程环境、保证数据交付效率的同时,对于数据的最终质量保证有着很大的提升作用。如果为了节省成本可以采用小作坊式的数据标注作业场所,生产环境恶劣,员工素质不高,虽然可以省点钱,却终究无法提供最好的服务。云测数据是将AI数据服务当成一个长远的事业来做的,而非用来赚快钱,这个主导思想自然会对最终结果产生正面影响。

 

其实云测数据更为吸引客户的,是在数据安全方面所下的功夫。行业发展初期很少有公司会重视这件事,但云测数据却对其高度重视。云测数据在场景数据采集之前都会与被采用户签署数据授权协议,确保AI企业用于训练的数据合法合规;在作业流程中采用数据隔离机制,所有的数据都是被封闭在标注平台中的,员工可以在平台之上作业但却无法真正接触到这些数据,以保证数据的安全性;还有一点是不滥用数据,数据交付后清毁数据不留底,绝不二次使用;从安全防范到作业流程,再到数据审核与质量保障,每个环节云测数据都建立起了一套完善的机制与管理规定,用制度来守护数据的安全性和隐私性。

 

Testin云测CMO张鹏飞也强调“从整体看来,AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但我们从长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能‘良币驱除劣币’,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程”。

 

事实上,这些看似繁琐的安全和质量机制,恰恰是客户所看重的,即便客户需求中也许不会展示那么详细,但云测数据通过科学流程主动将客户顾虑排除,客户的内心一定是认可的。因为谁也不愿意自己重要的数据被泄露外传,也不想自己的数据经过一番加工之后质量达不到要求。人工智能公司与AI数据服务公司之间,最重要的是建立一种信任关系,其他的事情自可迎刃而解。云测数据在这个行业内有章有法的运营行为,是其能够获得成功的关键。这给整个行业做出了正面示范,也引领了行业的健康发展态势。

 

全机器化、全智能化的时代还远远没有到来,在通往这个目标的过程中,相应的人力消耗与线下活动是必需的,因此云测数据具备充足的发展空间和机会。AI数据服务看上去所做的事情足够基础,但这些工作却是AI行业发展不可缺少的。如果说数据是驱动AI运行的能源,那么数据标注就是提供石油的那个角色。如果说数据是驱动AI运行的血液,那么数据标注就是造血干细胞,其作用与功能的重要性是怎么描述也不为过的。而云测数据正是这个新生行业的执牛耳者,将随着AI行业的发展而不断成长。

作者 葛甲

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址