文/周明耀 海康威视图像处理与分析部
大数据技术正在逐渐成为人们茶余饭后的必谈话题,它为各行各业提供了日新月异的变化思路。国内外产业界、学术界和政府机构正在以最快速度,大力推动大数据技术的反战,比较有代表性的是制造业、服务业、金融业、互联网、交通、医疗等诸多领域使用大数据技术的研究和发展,海康威视为代表的安防企业也在智慧城市、平安城市、民用领域等快速布局大数据理念、技术、产品。通过3年时间的积累,大数据时代真正来临了。
一、大数据介绍
大数据(Big Data)目前已经成为IT领域最为流行的词汇,其实它并不是一个全新的概念。早在1980年,著名未来学家阿尔文.托夫勒在《第三次浪潮》一书中,明确提出“数据就是财富”这一观点,并将大数据热情地赞颂为“第三次浪潮的华彩乐章”。
2001年,知名咨询公司Gartner的资深分析师Douglas Laney发表了一篇名为“3D Data Management:Controlling Data Volume, Velocity, and Variety”的文章,指出大数据管理面临三个V的挑战:数据量、数据多样性、高速。“3V”后来成为大数据公认的三个基本特征。
2011年5月,麦肯锡全球研究院发表白皮书,指出企业正在面临海量的交易数据、顾客信息、供货商信息和运营数据等,需要对这些数据进行管理与挖掘。在物联网环境下,传感器、智能手机、工业设备等都在产生海量数据。互联网中的多媒体数据量也在以指数级上升,如何处理这些数据,为用户提供有用的信息,成为需要考虑的重要问题。
2012年2月11日,纽约时报发表《The Age of Big Data》,向大众宣传大数据时代的到来。
2012年3月22日,奥巴马宣布2亿美元投资大数据领域,在次日的电话会议上,美国政府将数据定义为“未来的新石油”,美国政府认识到一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来对数据的占有和控制甚至将成为继陆权、海权、空权之外的另一种国家核心资产。
2012年7月10日,联合国在纽约总部发布了一份大数据政务白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。
二、大数据研究内容及现状
2012年冬季,来自谷歌、IBM、微软、MIT、斯坦福、伯克利、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的白皮书,该白皮书指出大数据面临着5个主要问题,分别是异构型、规模、时间性、复杂性和隐私性。白皮书指出现有的工作对数据的隐私性和易用性方面考虑不周。另外,大数据的分析包含多个步骤,目前的研究大多关注数据建模和分析,而对其他阶段考虑不够。即使是在数据分析阶段,目前的研究仍然没有很好地理解数据建模与分析在多租户集群环境下的复杂性,在该环境中,多个用户程序会并发执行。为了应对上述挑战,白皮书建议采用现有成熟技术解决大数据带来的挑战。
大数据处理过程大致分为数据获取/记录、信息抽取/清洗/注记、数据集成/聚集/表现、数据分析/建模和数据解释5个主要阶段,贯穿所有节点,系统需要考虑数据的异构型、规模、时间性、隐私性和人机协作等方面的因素。在每一个阶段,都面临着各自的研究问题与挑战。
1. 数据获取和记录阶段的主要问题是如何利用在线处理技术对原始数据进行智能化处理,自动生成正确的元数据,过滤不需要的数据,而不需要存储后再进行过滤。该阶段可能的研究方向包括数据压缩技术、在线数据分析技术、实时数据流分析技术、元数据自动获取技术和相关系统;
2. 信息抽取和清洗阶段的主要问题是数据多样性、数据真伪性。抽取的对象可能包含图像、视频等具有复杂结构的数据,而且该过程通常是与应用高度相关的。除此以外,由于监控摄像头、装载有GPS的智能手机、相机和其他便携设备无处不在,丰富的、高保真度的位置和轨迹数据也可以被收集于处理。数据清洗的现有工作通常假设数据是真实有效的,这些假设在大数据领域不再正确;
3. 数据集成、聚集和表现阶段由于大量异构数据的存在,大数据处理不能只对数据进行记录,然后就将其存入存储中。对大规模数据进行有效分析需要以自动化的方式对数据进行定位、识别、理解和引用。为了实现该目标,需要研究数据结构和语义的统一描述方式与智能理解技术,实现机器自动处理,从这一角度看,对数据结构与数据的设计也显得尤为重要;
4. 查询处理、数据建模和分析阶段频繁模式和相关分析得到的一般筒机数据通常强于具有波动性的个体数据,此外互联的大数据可形成大型异构的信息网络,可以发现隐藏的关系和模式。大数据使下一代的交互式数据分析实现实时解答,需要在TB级别上的可伸缩复杂交互查询技术的进一步研究与落地。现有的数据处理方式是前述的交互式复杂处理过程的一个障碍,需要研究并实现将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统;
5. 数据解释阶段应该支持用户不断提供附加资料,解释这种结果是如何产生的。这种附加资料称之为数据的出处。通过研究如何最好地捕获、存储和查询数据出处,同时配合相关技术捕获足够的元数据,就可以创建一个基础设施,为用户提供解释分析结果,重复分析不同假设、参数和数据集的能力。
目前国内外的学术界主要研究方式是与政府、大公司共同成立针对大数据研究实验室,主要针对大数据在计算平台、可伸缩的算法、机器学习和理解、隐私和安全等多个方面的科学问题与解决方案。学术界与专业机构的结合有利于业界大数据产品的落地,例如通过定期组织生物学、医学、计算机等方面专家就大数据问题研讨,可以跨科学地研究和探讨大数据问题,为生物医学专业的相关研究工作提供大数据支持。
谷歌作为全球技术领先企业,一直在致力于大数据技术的推动工作,通过不断开源已有系统、发布未来技术相关论文的方式,在机器学习、数据挖掘、数据分析等领域做出了杰出的贡献。
三、大数据的应用领域
全球著名咨询公司麦肯锡对医疗保健、零售、公共领域、制造、个人位置数据等5个领域进行了重点分析,提出了可以利用“大数据”的5种方法。
1. 以时效性更高的方式向用户提供“大数据”。在公共领域,跨部门提供“大数据”能大幅减少检索与处理时间。在制造业,集成来自研发、工程、制造单元的数据可以实现并行工程,缩短产品投放市场的时间。
2. 通过展开数据分析和实验寻找变化因素并改善产品性能。由于越来越多的交易数据都以数字形式存在,各机构可以收集有关产品或用户的更加精确和详尽的数据。
3. 区分用户群,提供个性化服务。“大数据”能帮助机构对用户群进行更加细化的区分,并针对用户的不同需求提供更加个性化的服务。这是营销和危机管理方面常用的方法,但也可以为公共领域等带来变革。
4. 利用自动化算法支持或替代人工决策。复杂分析能极大改善决策效果,降低风险,并挖掘出其他方法无法实现的宝贵信息。此类复杂分析可用于税务机构、零售商等。
5. 商业模式、产品与服务创新。制造商正在利用产品使用过程中获得的数据来改善下一代产品开发,以及提供创新性售后服务。实时位置数据的兴起带来了一系列基于位置的移动服务,例如导航和人物跟踪。
目前已经逐渐落地的应用模式主要集中在金融业、制造业、服务业、交通行业、医疗行业及互联网行业。
四、安防大数据
今后几年平安城市将不断向智慧城市靠拢,智慧城市中必须实现的是数据的共享,跨区域视频监控联网、监控资源整合与共享,政府各部门之间的视频监控资源的共享等等。近几年平安城市、智能交通、智能建筑等行业的快速发展,大集成、大联网推动安防行业进入大数据时代。面对大数据的存储、管理、分析,出现了一系列问题:首先是PB级数据的存储管理问题,这个问题目前主要通过分布式存储方案来解决;其次是海量视频数据中的有价值数据如何挖掘问题,这些问题都是安防行业需要使用大数据理念和相关技术去解决的。
视频云存储采用分布式存储技术,能够提供海量视频、图片的存储,具备高容量、高带宽、高可靠、高扩展等特性;交通卡口大数据处理平台主要应用于智能交通中,存储和处理海量的交通卡口过车数据,能够针对海量过车数据提供快速检索、智能研判、统计分析等服务,具体包括车辆轨迹研判、车辆诱导、车流量统计、车辆信息查询等服务;视频图像信息数据库主要应用于公安行业中,能够存储和处理案事件信息、卡口过车信息,针对海量数据能够提供高效的数据处理服务,包括全文检索等。