活数据——新时代的石油

陆离 阑夕


“有一种智能,在任一瞬间里都能识别所有在移动的力,以及力与力相互之间的状况。最好是能得到足够巨量的数据来分析,用同一种程序既能分析宇宙中最大的天体的运动,也可以分析最轻的院子的运动。没什么是不能确定的,对于这种分析程序来说,未来就像过去一样看得清清楚楚。”


如果我告诉你这段话来自于200多年前的法国学者拉普拉斯之口,你或许会感到有些惊讶,因为这其中对数据、对人工智能的描述放在今天显得也不是那么过时。

拉普拉斯的预言在200年后的今天成为现实,基于数据和AI,人们越来越有希望通过“程序”(算法),在巨量数据的基础上去判断未来,他甚至还发现了大数据除了“大”之外的另一个特点——流动。


数据是一种有价值的信息,是对信息的数字化,而信息最大的价值在于其流动性。只有形成闭环流动,才能发挥其最大的价值。倘若昔日禅宗之祖达摩只是在嵩山面壁九年,而未将禅学流传后人,那恐怕也只能留下“终日默然,人莫之测”的一句记载,而对人类没什么实际意义。因为没有流动的信息,抑或是数据,意义只存在于拥有信息或数据的某个人,而对全社会并无太多价值。

关于这一点,欧洲核子研究中心(CERN)曾经聘用了超过6500位科学家和工程师参与实验,实验是在CERN的大型强子对撞击(LHC)上进行的。这个粒子加速器可以把亚原子粒子推送到极高的速度,并通过CMS探测器可视化。而CMS探测器则是一个巨大的多层数码相机,记录了每秒LHC的粒子碰撞产生的碎片的图像。这也就意味着这个机器每天产生的数据量如果刻成光盘,累积高度都会超过珠穆朗玛峰。


但很遗憾,这些数据除了对实验室的6500位专家有意义外,对大多数普通人在当下的意义几乎没有。这种数据其实没有“在线”,而只有“在线”接入互联网的数据才有价值。“在线”则意味着闭环与流动。


这样带有人文色彩的看法同样也可以从历史中找到印证,因为人类的技术发展史,某种意义上就是一部信息传播的演进史。


无论是马拉松战役后狂奔42.195公里的斐里庇得斯,还是古代中国利用驿站和马匹的“八百里加急”,都是人类希望提高信息传播效率和范围的努力,这一努力一直持续到工业革命带来的蒸汽机。随后电气革命带来的无线电与越洋电缆,则都是将信息以电波或电信号的方式传递,计算机与互联网的出现则进一步将信息比特化、数据化,但自始至终,人类追求信息高效闭环流动的努力从未停止。


互联网的出现将所有的信息,或者说数据都粘在上面,过去几十年中,人们一直努力在这张网上创造数据,或者将线下的信息数据化后搬到网上。高德地图便也身处这个过程之中,它的工作是将线下的地理位置信息数据化后提供给用户。


在过去的一年中,高德的相关负责人在接受媒体采访时屡屡提及“活地图”的概念,其背后其实就是“活数据”。


对于地图行业而言,数据采集是最基础的工作,而在过去数据采集的基本方式是“扫街”,因此地图公司的能力就成了“扫街”能力, 而高德现在希望构建的则是用户贡献大规模UGC数据,从而形成的“活地图”,比如通过海量地图用户的回传数据,实时反馈道路状况,或通过电商运单大数据判断POI点的实际变化等,目的则是为了让地图的数据随时保持鲜活与流动,在与用户交互中不断进行更新迭代。也就是高德地图技术副总裁于志杰口中说的“高德在采取一种全新的方式做地图,数亿的高德用户每天使用地图和导航服务。哪里的路不通了,哪里的门店关闭了,高德都可以很快知道。这些活的数据让地图开发永不停止,让地图每一秒钟都不一样。今天用户需要的是0秒更新、变态准确的地图,一张活的地图,而这一切,都基于活的数据。”


图为高德交通大数据实时浮动车

近些年大热的O2O、物联网也是如此的逻辑,将线下世界数据化,让线下每一部分都能够实现王坚所说的“在线”——接入互联网这张数据网。从而打通线上、线下,形成闭环的活数据。而通过对这种或数据的挖掘,互联网公司们也能做出更多针对性的服务。比如高德地图就曾基于线下即时的人流信息,为商家提供实时的营销策略建议,这大大提升了营销的精确度和效果。


数据正在成为下一个以人工智能作为生产工具的时代的基础“燃料”,但如今的人工智能还不够真正智能,它依然需要经历大量的数据训练才能形成其判断模型。以IBM Waston为例,在过去5年中,IBM公司为Waston而并购的数据型公司的价值就超过了30亿美元,目的便是为了获取数百万张有标准的X光片,以训练Waston对肺癌等疾病的判断模型。


但实际上,这一点都不智能,因为人类并不是这样的学习和精进的,一个三岁的婴儿并不需要各看100万个桔子和苹果,才能判断桔子和苹果的差别,他只需要在第一次判断错误后有人提醒,就很难在第二次再犯同样的错误。因为它获得信息是有闭环反馈的信息,他的思维方式也要比目前已有的算法先进太多。而如果数据能够不断地更新和及时反馈,人工智能算法的训练效率无疑将提高不少。


随着人们对数据价值认识的不断更新,大数据的概念也正在从一味地强调“大”,慢慢地开始演变为既需要“大”,同样也需要具有流动性的“鲜活”,


或许再过十几年,我们惊奇的发现,人类战争不再是因为自然资源,而是因为“新石油”——活数据而引发,如果那一天真的到来你也不要感到奇怪,拉普拉斯可以预言200年后的今天,我们大胆预言一下20年后的未来又何妨,万一对了呢?


━━━━  陆离(来自阑夕的团队成员) ━━━━

肆意撰稿,擅长卖萌,总觉得自己是个读书人 

    + 关注

    + 订阅

    阅读:7829

    13

    精选留言