大数据将带我们去向哪里

  用大数据可以驱动整个人工智能的进化,不是机器的进化,而是说我们的生活、我们的工作,用数据驱动,用智能演进。  ——闫安

  近日,杭州量子金融服务有限公司联合创始人闫安来到由山东省社科联、山东大学等联合主办的齐鲁大讲坛,主讲“人工智能与大数据”。闫安先后毕业于中科大少年班、中科院软件所、布朗大学和华盛顿大学,曾在微软总部、微软中国和阿里巴巴的大数据核心部门任负责人。

演讲 闫安

整理 本报记者 徐蓓

只是数量大不是大数据

大数据,顾名思义就是数据量很大。我在微软工作时,他们的数据集是当时世界上最大的,比阿里的还要大60%。

但是,简单的数量大还不能称之为大数据,真正的大数据有几个特性。

第一,体量大。拥有大数据的公司凤毛麟角,只有像BAT、谷歌、Facebook这样的一线互联网企业才能有这么大体量的数据。

第二,速度快。前不久的“双11”,大家看到直播屏幕上的数字在不停地闪跳,完全是实时播报,天猫“双11”成交额超过100亿元只用时3分01秒,而去年“双11”突破100亿则用时6分58秒,每秒钟的支付宝交易达到十几万笔。在我们看来,“双11”交易背后的数据量是惊人的,从国外公开的数据看,他们历史存量的数据还没有淘宝几分钟产生的数据多,所以大数据的另一个特征在于产生的速度非常快。

第三,有价值。真正的大数据会产生一定的价值,而不是一堆毫无价值的数据。

第四,多样性。这也是大数据最重要的特性。当大数据有了多样性,即使没有那么大的体量,也会产生出独特的价值来。比如说在公安刑侦领域,几张车票看不出什么价值来,但如果加上住宿信息,就能挖掘出同伙资料,这就是大数据的多样性带来的好处。

在大数据时代,数据变成了资源。

阿里巴巴创始人马云经常说一句话,阿里巴巴不是一家电商公司,而是一家数字公司。马云从心底里看重大数据,因为他明白,有了大数据,他才会不断产生新的业务。在今年的云栖大会上,他说了一句很豪气的话:阿里什么行业都能做!他的底气来自哪里?正是来自这些年积累的大数据。

用数据来说话

为什么说大数据时代已经来临?

第一,一切事物都在数据化、在线化。

现在的消费者每个人手里几乎都有手机,这也就意味着每个人都持续在线,手机本身就是一个信息采集器,你做的很多事情都是在不停地输出数据。

其他很多事情也是如此。正在研究的无人驾驶汽车,只要汽车开在路上,它就开始采集数据,而且每秒钟就能采集到很大的数据量。还比如很多农民家屋顶上安装的太阳能发电系统,直接连接到国家电网进行销售,这一切都已实现在线化。在线的数据是活的数据,只要线上化之后,持续不断的数据搜集进来,大数据就能做起来。

第二,数据的计算和存储能力持续加强,成本剧降。几十块钱、几百块钱就可以进行大体量的计算,这使得大数据的应用成为可能。

大家都听说过云计算,其实云计算就是一种公共服务。几年前的春节,大家要买火车票,可是12306网站经常登录不上去,因为春运期间比平时要多出几十倍的流量。12306网站不可能投资很多电脑设备去更新,因为除了春节以外平时就会闲着,资源闲置怎么办?于是,就可以用云计算来解决,电脑需要多用的时候就租来用,像水和电一样,用得多就多收钱,用得少就少收钱。

现在提供云计算服务的公司包括阿里云、腾讯云、亚马逊等,它们的机房里放了很多机器设备,我用多少就付费,用完了再还回去,所以最近几年12306网站70%的流量都由阿里云来进行弹性计算。云计算让一家普通的创业公司也能使用大数据的强计算量,而不是只有BAT这样的大公司才能有这样的特权。因此,云计算也是大数据时代来临的重要标志。

第三,使用大数据已经成为大家的普遍观念,而不只是个别人很感兴趣。就像美国著名统计学家、质量管理学家爱德华兹·戴明所说,除了上帝之外,任何人都必须用数据来说话。

大数据怎样改变生活

我给大家举些例子,看看大数据是怎么改变我们的生活的。

美国9·11事件时,一共有21个劫机犯,当时大数据还没有发展到一定的阶段,如果当时能够采用大数据进行关系挖掘的话,也许这个事件可以避免。其实,就在事件发生前的2001年8月,已经有3个劫机犯引起了警方的关注,但并没有把他们视为团伙,根据他们买机票的时间以及买同一个航班等信息,这些可疑的恐怖分子原本应该引起警方的高度重视。吸取了这些教训,现在国外的反恐,背后都有大数据在进行支撑。

再看看大数据在其他生活方面的应用。

大家每天打出租车,已经习惯了使用滴滴打车等软件,因为这些软件采用大数据技术,经过各种计算,能将行程状况、乘客的爱好和拼车习惯等信息更精准地进行匹配,从而找到最合适的线路。

有人曾经根据百度上搜索词的信息来推测某地发生了流感。如果在百度上有很多人搜索和流感相关的词汇,并且集中出现在某个区域的话,就可以基本判断那个地区的流感比较集中,有关部门就能针对性地部署对策。还比如,美国每周会对谷歌的搜索词进行分析,然后发布一个失业报告,计算出这一周的失业率是上升还是下降,因为失业的人会在网上搜索和别人不一样的内容,像我怎样申请救济、我怎么找工作、我的社保怎么办之类问题,根据这些搜索词来分析,结果往往非常精准。

阿里小贷服务,是大数据催生新业务的典型。阿里在做淘宝时,发现沉淀下来很多电商的数据,比如这家淘宝店主过去几年做得好不好,现在是在上升期还是下降期,这些都可以从这家店的所有账目流水中得知。如果这个淘宝店主想去银行贷款,大银行对这种小店主基本上是不提供贷款的,或者贷款成本很高。但是通过大数据,阿里发现自己对这个店主知根知底,知道他所有的流水数据,只要用大数据建一个模型,就能立刻算出这个淘宝店主的信用风险是高还是低。于是,阿里巴巴后来就催生出了芝麻信用业务,全程零人工介入,由电脑放贷,这在银行是不可能操作的。运行下来的数据显示,阿里小贷服务的坏账率低于1%,远远低于银行的坏账率。

再进一步,从企业信用发展到个人信用。根据消费者在淘宝上花钱的情况,甚至包括其朋友圈里其他朋友的花钱情况,从理论上说,信用好的人,他的朋友信用也不错,利用这些信息就可以打出每个人的个人征信分数。芝麻信用好的人,出差住旅馆不需要押金,离店不需要查房,去很多国家能免签证,这样,信用的概念也就慢慢进入了我们的生活。

  “算”出来的人工智能

最近有一个刷屏的新闻,沙特授予了机器人索菲亚公民身份。在新闻发布会上,有人问了机器人一个问题:你怎么看待人?机器人反问道:你们人怎么认为自己不是机器人呢?这说明人工智能已经离我们越来越接近了。

什么是人工智能?其实很简单,人工智能就是通过大数据和大计算解决一些本来是人做的而机器不会做的事情。

历史上留下很多数据,包括各种文档、书、视频、文献,还有采集来的数据,机器具备了一定的学习能力以后,经过一定的算法,就可以形成各种各样的智能应用。大家耳熟能详的阿尔法狗(AlphaGo),就是利用数据开发的智能应用,所以下围棋下得很厉害。

如今,人工智能的应用非常广泛。

比如,智能交通。大家外出时经常使用高德、百度地图,它会告诉你哪条路是堵的,哪条路是畅通的。

现在杭州正在试点“城市大脑”,就是在交通信号灯上安装了很多联网的装置,把数据采集回来,这样就可以利用这些大数据,开发“互联网信号灯”,从而更好地控制信号灯以及信号灯的用时长短,有效地降低交通拥堵。试点下来,城市的拥堵指数可以降低到10%。

大家一定听说过智慧城市,其实所谓的智慧城市,就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。通过在城市里大量安装传感器,可以搜集到很多人活动的轨迹信息,比如什么时候坐地铁的人最多,某条交通干道一天24小时的人流轨迹等等,把这些信息采集起来,进行大数据分析,可以实现城市智慧式管理和运行,提高政务效率,进而促进城市的和谐、可持续成长。

人工智能也在进行金融方面的探索。比如原先要研究一家企业,必须读这家企业过去的财报,每一年都有五六百页的财报,工作量很大。现在的做法是,让计算机把财报中的内容进行提炼,用各种图表的形式展示出来,包括这家公司和其他公司的比较,公司自己过去几年的业绩比较,再从简单的数字型分析进入到非结构化的深入分析。

在医疗保健领域,人工智能深度学习的能力,最近几年从图像识别和语音识别开始形成了突破。如今国外有一些成熟的图像识别数据集,已经具有非常准确的识别率。在疾病诊断方面,可以拿着X光片、CT片来诊断癌症,这在近期很有可能形成新的突破。

在电商零售业,现在很多电商企业像亚马逊等,每天在仓库里跑来跑去的都是机器人,公司日常的管理、运输、退货,机器就可以解决了。甚至客户服务也是由聊天机器人担任,等回答不了消费者的问题时,才会自动转接人工服务。

教育领域的人工智能发展同样非常迅速。现在的英语语法人工评测、普通话考试等,都可以由人工智能完成。比如一位老师要参加普通话考试,她的面前就是一台能够进行语音识别的机器,能对她所说的普通话逐一进行打分。学生学习英语,也可以用人工智能来评价其语法是否规范,还可以判断一个人的发音更像是中国式英语、美国式英语,还是更像英国式英语,这个人工智能可以判断。可以说在教育领域,人工智能在很多方面取得了成功。

目前,对于一个人的自然语言的评判,人工智能还不是很成熟。就现在来说,人工智能能够做到理解你说的话,但如果要和你真正地对话,可能还需要10年以上的时间。

 强人工智能约2045年登场

人工智能的发展历程曾经起起落落,其中有过两次大的低谷。

因为要让机器模拟人的智能,科学家们先后从两个方向入手研究。一部分科学家研究人脑是怎么工作的,也就是从神经科学入手研究;另一部分科学家则从数学的角度入手,从统计模型来进行各种预测、归类。两次低谷都是由于技术发展遇到了一定的瓶颈、计算能力跟不上而引起的。

最近几年人工智能又一次在世界范围内大热,这次人工智能标志性的技术是深度学习的发展,包括阿尔法狗的胜利、各种无人驾驶汽车、各种图像识别和语音识别的发展,都是和深度学习能力相关的。

但是,无论如何,我认为我们现在还是处在弱人工智能的阶段。什么是弱人工智能的阶段呢?比如说,阿尔法狗下棋可以下赢世界冠军,但是如果让它看图识别,它还不如一个3岁的小孩。你给3岁的小孩看一张熊猫的图片,告诉他这是熊猫,然后你带他去动物园看熊猫,他一眼就知道这是熊猫了。但如果是机器人的话,你得给他看成千上万张熊猫的照片,它才能知道这是熊猫。

所谓的强人工智能,就是拥有自我进化能力的机器人。比如,谷歌让人工智能来进行人工智能程序的开发,写出一些很简单的程序,以此来了解人工智能以后会往哪里发展,这种做法是可以产生进化能力的。

我认为,从强人工智能到超人工智能的进展速度会越来越快,一旦人工智能的脑力发展到一定程度之后,可能会以小时、以分钟为单位,迅速进化成为像神一样的超级人物。强人工智能发生的时间点,我认为可能会在2045年左右,就像特斯拉的创始人马斯科所言,强人工智能发展到一定的阶段会产生极点,会发生人类不可控的事情,所以必须提前做出规划和限制。

有人会问,为什么是2045年?因为人脑的计算能力和超级计算机天河二号差不多,持续计算速度达到每秒3.39亿亿次。根据现在的发展速度,到2025年,天河二号可以装到你面前的笔记本电脑里。再联系我一开始说的话,每一个创业公司都可以花很低的钱进行大体量的云计算,所以再过20年,到2045年,人类的进步将是天翻地覆的,20年之后人工智能会发生什么样的变化真的很难说。

最后我总结一下,用大数据可以驱动整个人工智能的进化,不是机器的进化,而是说我们的生活、我们的工作,用数据驱动,用智能演进。

 

来源:解放日报\新华网

相关新闻

联系我们

0772-6021525

邮件:mylink@gxmylink.com

工作时间:周一至周五,8:30-18:00,节假日休息

QR code