什么是大数据?大数据能做什么?
1PB够大吗?
如果你没有直观印象,可以联想一下你的电脑硬盘容量,标配是500G-1TB,大部分人用了一两年,可能这部分容量都没用完。而1PB=1024TB=1048576GB。
在实际中,一个小有名气的游戏一天的数据量就在数十TB左右,甚至更多。
如果你以为PB单位已经是最大了?那就大错特错了!!!!
在PB之上,还有EB(Exabyte 百亿亿字节 艾字节),ZB(Zettabyte 十万亿亿字节 泽字节),YB(Yottabyte 一亿亿亿字节 尧字节),而这些单位也只是为了方便统计海量数据所给出的当前单位,在未来还可能出现更大的单位。
因特尔公司首席执行官Brian Krzanich表示,2020年互联网用户每天将产生1.5GB的数据。
HIS数据预测,到2025年,全球互联网(IoT)连接设备的总安装量预计将达到754.4亿,这部分设备每天产生的数据量可想而知。
按照前面的数据关系,得出1ZB大概是1.1万亿GB,等同于全世界沙子数量总和。
互联网数据每年都在爆炸式增长。当然,大数据并不只是数据量大而已,它还有其他更深的含义。
对于大数据,麦肯锡全球研究所给出的定义是:
”一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。“
大数据具有五大特点,称为5V。
1. 多样(Variety)
大数据的多样性是指数据的种类和来源是多样化的,数据可以是结构化的、半结构化的以及非结构化的,数据的呈现形式包括但不仅限于文本,图像,视频,HTML页面等等。
2. 大量(Volume)
大数据的大量性是指数据量的大小,这个就是上面笔者介绍的内容,不再赘述。
3. 高速(Velocity)
大数据的高速性是指数据增长快速,处理快速,每一天,各行各业的数据都在呈现指数性爆炸增长。在许多场景下,数据都具有时效性,如搜索引擎要在几秒中内呈现出用户所需数据。企业或系统在面对快速增长的海量数据时,必须要高速处理,快速响应。
4. 低价值密度(Value)
大数据的低价值密度性是指在海量的数据源中,真正有价值的数据少之又少,许多数据可能是错误的,是不完整的,是无法利用的。总体而言,有价值的数据占据数据总量的密度极低,提炼数据好比浪里淘沙。
5. 真实性(Veracity)
大数据的真实性是指数据的准确度和可信赖度,代表数据的质量。
数据一直都在,变革的是方式
大数据的意义不仅仅在于生产和掌握庞大的数据信息,更重要的是对有价值的数据进行专业化处理。
人类从来不缺数据,缺的是对数据进行深度价值挖掘与利用。可以说,从人类社会有了文字以来,数据就开始存在了,现在亦是如此。这其中唯一改变的是数据从产生,到记录,再到使用这整个流程的形式。
1. 数据生产
在人类社会的早期,民以食为天,数据的产生大多与商品,食物,土地等挂钩。旧石器时代的部落人民在树枝或骨头上刻下凹痕来记录日常的交易活动或物品供应。
为了衡量商品长度,中国人发明了尺、里、寸、丈、步、仞等长度单位;为了衡量重量,发明了升、斗,斛等重量单位。
在互联网时代,数据的生产变得更为容易。美国互联网数据中心曾指出,互联网上的数据每年都将增长50%,每两年便将翻一倍,而目前世界上90%以上的数据是最近几年才产生的。
每人每天都会产生海量数据,如视频数据,电商数据,社交数据等等。
全球每60秒产生的数据
2. 数据记录
千年之前,人们用龟甲石鼓、简牍绢帛到造纸术成熟后的刻本等一切触手可及的器物来作为数据的载体。
千年之后,人们用图书,报纸,硬盘,光盘,存储器等各种更为灵活,简便的方式记录数据。
3. 数据利用
古人利用利用甲骨文占卜判断凶吉,利用占星术预测朝代兴衰;利用蚂蚁搬家,燕子低飞,蚯蚓出洞来预测天气。
互联网时代,企业或产品利用电商数据为用户推荐商品,利用社交数据做广告营销等等。
在大数据概念兴起之前,大部分企业并没有注意到数据的宝贵价值,只是在纯粹的生产和记录数据。更有甚者视海量数据为累赘,因为数据的存储与管理需要耗费企业大量的成本,极少有企业能把数据作为一种资源,嗅到大数据背后的价值,从而加以利用。就算到现在,数据资源的整合利用能力依然是考验每个企业的一大难点。
大数据应用
大数据作为一个能够改变产业应用的技术,只有切实落地才能带来真正的价值。
其实大数据的应用范围非常广,不单单限于互联网行业,在其他诸如金融,制造业,交通物流方面也都有非常大的应用价值。
上一篇: 什么叫大数据?看完就懂,不要晕倒
下一篇: 使用Java调用存储过程(上篇)