大数据无疑是近两年占领科技前沿的词汇了。不管是云计算、社交网络,还是物联网、移动互联网和智慧城市,凡之种种都要跟大数据扯上关系。大数据已经成为有特别含义的专用词汇,不再单单指数据体量大。
▲图源网络
究竟什么是大数据?大数据发展的现状如何?未来大数据能够给我们带来什么呢?
1
大数据的定义
大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。大数据有4V特点:数据体量(Volume)大、数据类别(Variety)大、数据处理速度(Velocity)快、数据真实性(Veracity)高。
▲图源网络
国家信息中心专家委员会主任宁家骏表示:大数据是指无法在一定时间内使用传统数据库软件工具对其内容进行抓取、管理和处理的数据集。大数据不仅仅是大,还有它的复杂性和沙里淘金的重要性。
2
大数据的背景
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,根据监测,这个速度在年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。
▲图源网络
资料显示,年,全球数据规模为1.8ZB,可以填满亿个32GB的iPad,这些iPad可以在中国修建两座长城。到年,全球数据将达到40ZB。我国,年新存储的数据为PB,年中国的数据存储量达到EB,约为日本的60%,北美的7%。
▲图源网络
大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位由TB-PB-EB-ZB的级别。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。
3
大数据的特点
数据体量大
现在大型数据集,数据量一般在10TB规模左右,更多的认为应该达到PB规模。
▲图源网络
数据类别大
数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。如前文提到的网络日志、视频、图片、地理位臵信息,等等。
数据处理速度快
在数据量非常庞大的情况下,也能够做到数据的实时处理。
▲图源网络
数据价值密度低
价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
涵盖各行各业
在零售行业:有机构预测,“大数据”的发展,将使零售业净利润增长60%以上,制造业的产品开发、组装成本将下降50%以上。
▲图源网络
在制造行业:企业通过对网上数据分析了解客户需求和掌握市场动向,并对大数据进行分析后,就可以有效实现对采购和合理库存量的管理,大大减少因盲目进货而导致销售损失。
在商业上:国外一些超市利用对手机的定位和购物推车获得商场内顾客在各处停留时间,利用视频监视图像软件分析顾客购物行为,优化商场布局和货架排列。
▲图源网络
在*府决策上:分析几十年来的天气数据,将各地降雨、气温、土壤状况和历年农作物产量做成精密图表,就可以预测农产品生产趋势,*府的激励措施、作物存储量和农业服务也可以随之确定。
4
大数据的发展现状
大数据的快速发展,使它成为IT领域的又一大新兴产业。据中央财经大学中国经济管理研究院博士张永力估算,国外大数据行业约有亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。我国年大数据市场规模大约4.7亿元,年增速将达到%,达到11.2亿元,产业发展潜力巨大,未来发展空间可期。
▲图源网络
*府积极介入推动
年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。美国从开放*府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。美国在开放*府上非常积极,通过Data.gov开放37万个数据集,并开放网站的API和源代码,提供上千个数据应用。
除了推动本国*府数据开放,美国倡导发起全球开放*府数据运动,已有41个国家响应。美国*府还投资两亿美元促进大数据核心技术研究和应用,把大数据放在与集成电路、互联网同等重要的位臵,从国家层面推进。
▲图源网络
资本市场也对大数据钟爱有加
年4月,大数据分析公司Splunk高调宣传大数据,引发投资者