以下为邬院士在第三届中国国际物联网大会上演讲的文字实录:
智慧城市的基础设施
这里首先说一下智慧城市的基础设施。
什么是智慧城市?最初其实是无线城市,无线设施是数字城市设施的关键组成,但无线城市仅仅是数字城市的第一步,数字城市可能还要求比电信网络有更多的有线宽带设施。
智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效。对人力与社会资源和传统及现代设施的投资,促进可持续经济发展和高质量生活,同时通过提供参与治理的机会实现对自然资源的管理,这时,一个城市就可以被称为智慧城市。
智慧城市本身应该是可测量、可监控、可分析的,另外也是能整合的,同时还是创新以及协作的。那么,智慧城市跟物联网以及跟未来网络有什么关系呢?物联网是智慧城市网络能力的基础,但智慧城市的网络能力内涵更为丰富,具有对未来网络所期待的特征。我们可以从许多方面看到,传感网仅仅是未来网络的一部分,除了英特网以外,未来网络还应该包括数据与内容、物品与传感器、用户与知识等等。未来感知则包括服务感知、数据感知、环境感知和社会与经济感知。
物联网底层有很多感知对象和感知的单元,通过网络把它们汇集,然后通过应用领域将实现更智慧的决策。智慧城市的信息要有非常强大的基础设施,包括有线网络、无线网络、移动网络,有时候还需要利用卫星等手段。除了传统手段以外,靠近用户端有物联网网端,有时候还需要云计算平台的支撑。
智慧城市的信息基础设施是下一代互联网和未来网络,我们希望这个网络更安全,能够具有移动性的普适计算,能够跨越物理与Cyber空间,而且还是自治连网。
那么智慧城市跟云计算是什么关系呢?事实上,我们国家很多智慧城市都以建立云计算基地和提供云服务为主要目标,像北京有祥云工程,上海有“云海计划”,天津有六云产业和三云应用,重庆希望建立云端智能城市,广州有天云计划。
我举个例子,比如上海的智慧闵行,闵行有很多的数据库,然后建立闵行区私有云和民生云,希望通过数据挖掘、智能图像识别和网络检索技术,来实现智慧政务、智慧医疗、智慧交通。
早年我们没有谈云计算,20世纪80年代谈数据库,90年代谈IDC,现在我们更多的开始谈云计算,实际上更多的是云服务。在云计算上面有laaS系统,上面有PaaS市系统,再上面有SaaS系统。但是我个人认为,做laaS仅仅是数字房地产,房地产随着时间是增值的,那么laaS随着时间会贬值,更多的应该做PaaS,提供很多的开发环境,利用这个环境开发企业需要的软件。对于更多的中小企业,即使有PaaS自身也不会开发,因此需要提供SaaS,这里面就需要提供非常多的软件。
通常来讲,一般企业可以利用共有云,对于大企业来讲,往往建自己的云,但并不妨碍跟共有云发生关系。更多企业既想把一些装置放在公用平台上,但又担心安全,所以经常是使用私有云。
美国政府IT预算的25%投入云计算平台
下面是本报告的重点,讲一下智慧城市的数据管理。我们大家可以想一想,互联网上的一分钟可以干一些什么?实际上,到2015年,大概1个人要花五年时间,才能看完在互联网上一秒钟所传的所有视频。那么互联网上一天可以干什么呢?对Twitter,一天新增2亿条微博,7个TB。50亿个单词,几乎是60年来《纽约时报》单词量的两倍。对于Facebook,一天可以上载2.5亿张照片,相当于300个TB。那么在中国,淘宝网站一天又交易数千万笔,大概数据量是20个TB。全世界互联网上一天的信息量如果装在DVD光盘上,要装1.68亿张光盘,大概是80万个硬盘,约占800EB。
对于互联网流量的变化来说,1998年,平均一个网民一个月的流量才1MB,2000年达到10MB,到2008年,平均一个网民是1000MB,到2014年将达到10000MB。
2011年4月,美国国会图书馆收集了235TB的数据。全球新产生的数据年增40%,全球信息总量每两年就可以翻番。而对新增数据的处理能力以及其利用率的增长则不足5%,且所有数据量的90%的数字内容属于非结构化内容。
最近两个月,在YOUTube上上载的视频超过了ABC、NBC和CBS电视台自1948年以来连续播出的内容。
那么什么是大数据呢?大数据是指没有办法在容许的时间内用常规的软件工具对它进行技术抓取、管理和处理的数据。也就是说,在规定的时间里用常规软件工具是做不到的。大数据目前的标准是指单一数据集的大小在几十TB到数PB之间。
大数据本身有四个特征:超量、高速、变异、价值。大数据的应用领域很广泛,有医疗、交通、财务、物流、安全等等,应该说想得到的领域都可以发生很多应用。
比如企业,企业有管理部门、开发部门、销售部门、服务部门,这些部门是有交互的,通常的企业管理可能很难得到最优化,如果利用大数据,就可以改善它的管理,在性能上可以提高40%〜60%的管理效率。
美国有一个公司InFormatica为帮助美国一家零售公司,把交易型的数据与社交媒体产生的数据进行关联分析,找到“最佳客户”并分析他们的购买行为。亚马逊公司从销售数据分析搭配在一起买的商品。
硅谷有个气候公司,从美国气象局等数据库中获得了几十年的天气数据,将各地的降雨、气温和土壤状况及历年农作物产量做成精密图表,从而预测任一农场的明年产量,向农户出售个性化保险。如果出现未能预测的恶劣天气损坏庄稼,气候公司将及时赔付。
我曾经在山东寿光的菜市场看到,当地有一个显示屏,北京黄瓜3块钱,当地黄瓜1块钱。我问农民说,你怎么不到北京去卖呢?他说,我要去北京卖,价格8毛钱都卖不出去。我说信息化对你没有用吗?他说,不是,信息化只有我知道的,另U人不知道的信息对我才有用的,因此所有的市场信息都应该是个性化的。
美国纽约的警察通过分析交通拥堵跟犯罪发生地点的关系,能有效改进治安。美国纽约的交通部门则从交通违规和事故的统计数据中发现规律。
我们的电信运营商也拥有大量的手机数据,通过对手机数据的挖掘,不针对个人而是着眼于群体行为,就可以从中分析出某个时候有多少人在某个地方。
前一段时间我去广东,广东省委领导提出来现在的经济下行了,究竟农民工走了多少?往往这个数据统计不准确。因为经济好的时候,人们不会多吃盐,经济不好的时候,也不会少吃盐,所以盐的销量相应就可以反映出人的数量。为了核实这个数字,我问了一下广东的通信公司,我说你们能不能从用户活跃数量上判断结果。结果从这个上面判断出这个数字,也是20%左右。所以通过数据往往可以很好地反映人的来源。
比如说我们可以很好地掌握现在在天安门广场有多少人,可以知道多少人来自河南,多少人来自四川,多少人来自江苏。如果你是来旅游的,一两个小时就走了,如果上访的,可能三四个小时,这个时候上访部门就要注意了。
还有,就是可以根据手机在马路上的运行速度判断这条马路是不是堵,实际上这些都是可以挖掘的数据。
美国保健的年度潜在价值有3000亿美元,相当于西班牙年度医疗保健开支的两倍。欧洲公共管理的潜在年度价值是2500亿欧元,比希腊GDP的两倍还多。所以,世界经济论坛上的大数据就是新财富,大数据的价值堪比石油。
当然了,要挖掘大数据不是那么容易的事,首先要进行数据管理,数据来自不同的地方和不同标准,数据量的大小、结构形式、实时性都不一样,会增加采集、编索与整合的困难,需要对传统的数据传输工具ETL流程进行重新设计。
数据存储和挖掘
传统的集中式数据库、数据仓库系统已经不能有效地处理大数据的存储和分析,而需要分布式处理,Hadoop就是分布式结构化数据存储方案。
数据挖掘主要是为了处理具有高维特征的图像等多媒体数据,而将高维数据看成位于一个相对低维子流形上,然后利用流形的性质将数据降维后进行度量与处理。
总的来说,物联网也好,智慧城市也好,数据挖掘是重点。今天我看到无锡这个展览会,很多都关注数据感知、应用,几乎没有看到数据挖掘,没有看到智能决策,实际上,这是需要智能决策的。首先在数据收集层不仅仅是收集传感器的数据,还需要收集政府和市民的数据,这样才能知道这个时候这个地方发生了什么,然后才能对传感器的数据有一个合理的解释。
获得这些数据以后,不是简单从数据分析,还需要建立一些模型进行仿真,得出的结果需要有可视化的表现,甚至要增强现实。
另外是不是发布?是不是在发布之前进行仿真?发布之后有什么样的后果?这都需要在数据挖掘上做。
比如说蓝藻爆发监测模型。通过传感器捕获太湖水里的成份,可以根据经验知道蓝藻的发生强度跟溶解氧有比较高的相关程度,跟水温有比较高的相关程度,跟电导率有比较高的相关程度,但跟氨氮、PH值、硝酸盐没有这么高。这些可以作为参考,但仅仅这些还不够,还需要图像,根据视频结果,一起来结合分析,才有可能得出是不是会有蓝藻爆发的结果。
不仅仅基于传感器,还基于人工采集的数据,基于卫星遥感的数据,通过多元的数据收集,才能保证确认这个事件的可靠性。收集了这些数据以后,需要有数据湖泊模型,通过跟历史的比对,进行分析挖掘,得出结果以后进行网络发布,所以这是一个复杂的过程,我们需要合理制定感知数据的存储期。
现在,我们的城市都有大量的摄像头,很多城市提出来存三个月,几十个摄像头的存储量需要非常大的资源,这就需要压缩去掉重复无用的数据。比如关注某个仓库有没有异常事件,那绝大部分是没有人的,这段可以压缩掉,而且要兼顾历史数据和新数据,提供一个使数据精度随时间逐渐降低的数据老化方法。另外,存进还要考虑以什么样的规律挖出来。
数据的隐私和保护也是非常重要的问题,这里有技术性问题,一些数据可能需要加密,这要分配密钥,而加密对于传感器来讲需要采用高能效的加密算法,当然还有可介入性认证、可信性认证、数据完整性认证、隐私增强技术和身份管理等等。
法律上规定有些数据必须开放,老百姓也能看见,还有责任性、数据拥有权。从经济角度要有行为规范,为了商业利益也要有隐私保护。在社会伦理上要保证公众有知情权,保证消费者有权利,保证消费者的主张。
数据访问认证与安全管理有网络访问控制、网络数据保密、网络数据完整性、网络可用性、网络不可否认性等等。
另外,在大数据的挖掘中很重要的一点,就是要解析非结构的信息。文字信息比较好过滤,有一个关键词就可以选择了。有一个小企业,它做不到每个员工一人一台电脑,很多时候是两三个员工一台电脑,有一个员工觉得很不方便,就向领导发了一个短信,他说我申请一台独立电脑。计算机一分析“台独”,实际上计算机本身没有这个智能,它需要上下文关联,通过工具找出真正的含义。把复杂的、模凌两可的矛盾的数据导出可理解的内容,这就需要进行大量的解释。
另外,大数据的量非常大,我们不能等它存在计算机数据库里再调出来分析,我们需要一边输入,一边分析。过去分析是把数据带进程序,现在我们是把程序带进数据,就是实时进行工作。
刚才说到分析结果要进行可视化,只有可视化才能更直观,更能够被决策者所看得见,也能够在发布的时候,让老百姓能理解。举个例子,上海延安路上布放了很多摄像头,每个摄像头后面都连着一个电视屏幕。往往在交通监控中心,一面墙上放了很多电视屏幕,再多也不可能把整个上海交通电视屏放上去,只能每十秒钟更换一次,可能每一个点要半小时到一小时才能看到一次。
现在要把整个录像合成一个视频,就可以看到延安路上交通状况如何。当然,理论上还可以合成全上海的视频情况,在某一个经纬度上对应某一条路上,在某一个时段上演,哪个时候车最多?哪个时候行车速度最慢?因此,可视化能够让我们直观看到上海市同一个时间的交通流量图。
篮球场的半场中,NBA可以统计2011—2012年投篮位置和投篮命中率的关系,这里面得点值越大,表示在那个点上发生投篮概率越大。颜色发红的表示投篮的成功率最高,你可以看到在半圆以外投篮率都很高,在篮板下投篮也比较高,其他地方并不是很高,这就是很简单的可视化的例子。
其实在城市里有多种多样的物联网,我们不太可能把电力、交通、工业、海水都合为一个物联网。一个城市由这么多物联网组成,关键是这些信息能不能共享?所以,这是城市数据管理一个很重要的内容。
事实情况往往是某个地方发生火灾了,可以打119。如果交通部门不去,因为那儿堵车了,救火车开不进去;如果供水部门不去,那个地方开不了水;如果120不去,可能不能急救。所以,城市的服务系统应该是互相关联的。
最后要说的一点就是,我们正在进入宽带时代和移动互联网时代,将要面对后摩尔时代、后PC时代、云计算时代和物联网时代,大数据时代也将向我们走来,网络技术正走向换代发展的转折点。
无线城市、数字城市、宽带城市、感知城市是智慧城市的必要条件;智慧城市是城镇化进程的下一阶段,是城市信息化的新高度,是现代城市发展的愿景。
智慧城市每天都会产生大量的数据,大数据的收集、存储和分析处理以及使用对智慧城市是很大的挑战,这不仅是技术,也是法律和政策需要关注的问题。大数据的挖掘对智慧城市的经济发展和社会管理都是无形的管理。