大数据”有多大——教育大数据二

  上一篇我们看到“大数据”已经深入到我们的日常生活中。在进一步介绍“大数据”技术前,我们先来了解一下“大数据”到底有多大。

  我们常听到各种表示数据大小的单位,例如网络下载速度是每秒“50KB”,手机包月流量为“100MB”,视频文件大小为“1.8GB”,移动硬盘的容量为“2TB”。这些单位是什么意思,到底包含多少数据呢?

  注意这些单位都以字母B结尾,B是英文字母“Byte”的缩写,中文叫做“字节”。1字节由8比特构成,每个比特要么是0要么是1。因此“2B”除了用来骂人外,也可表示2个字节或16比特的数据。

  1KB等于 1024字节,或大约一千字节。K是一个较小的数据单位,例如一篇500字左右的作文大约有1KB的信息,而普通人的月收入一般为几K元。1MB(兆字节)等于1024KB,或大约一百万字节。从数据的角度来看,M不算一个大单位。例如,一张普通图片只有1MB左右。但如果某人的年收入超过1M元,他就是年薪百万的富人了。1GB(吉字节)等于1024MB,或大约十亿字节。即使从数据的角度,G也算一个较大的单位。例如,一个8GB的U盘可以装下2000本《天龙八部》,而比尔盖茨的个人财产也只有几十G美元。1TB(太字节)等于1024GB,或大约一万亿字节。2014年个人移动硬盘的容量约为1TB。T是一个很大的单位,只有少数国家的P超过1T美元。例如中国2014年的P约为10T美元。尽管1T已经是很大的数,但在许多人看来这还称不上“大数据”。PB是比TB更大的单位。1PB(拍字节)等于1024TB,或大约1千万亿字节。传统数据库系统不能高效地处理1PB的数据,因为仅仅向磁盘写入1PB的数据就要耗费200多天。而全人类的总资产也不到1P美元。再往下,1EB(艾字节)等于1024PB,1ZB(泽字节)等于约1百万PB或约十万亿亿字节。1ZB到底有多大呢?如果将这些数据用标准的光盘来存贮,大约可以堆成5堆光盘,每一堆都可以从地球伸到月球。据估计,到2020年,全球总数据量将超过40ZB。表1列出了从1K到1Z的相应例子。表1. 从1KB到1Z:数量与举例

  为什么人类能产生如此庞大的数据?著名的摩尔定律可以解释这一现象。戈登摩尔是Intel公司的创始人之一。他曾在1965年的一篇论文中提到“过去十年,硅芯片上的晶体管数目每年增加一倍”。在过去几十年中,数据量也基本按这一规律增加。以我个人为例,1995年读初中时,我使用的个人存储是一张软盘,其存储大小为1MB。时至2015年,我的个人存储变成移动硬盘,其存储大小为1TB。也就是说,在过去20年中,我拥有的数据量增加了一百万倍。我在1995年的个人财产大约为100元,如果财富也按摩尔定律增长,那么我今天的财产就会达到1亿元。那到底多大的数据才称得上“大数据”呢?其实答案要视应用而定。例如,对于一般的文档处理系统,1TB的文档就可称作大数据;但对于关系数据库系统,可能100TB的数据才算大数据。从应用的角度来看,当数据量大到传统技术难以处理时,就可称为“大数据”了。此外,数据能否称为“大数据”,还要看数据的复杂性以及产生数据的速度等特征。在下一篇中,我们一起来看下大数据到底有哪些应用和特征。(重庆大学计算机学院教授、博导 周庆)戈登摩尔更多大数据相关精彩内容,请关注【贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会数据观全程报道】免责声明:本文仅代表作者个人观点,与环球网无关。其原创性以及文中陈述文字和内容未经本站,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何或承诺,请读者仅作参考,并请自行核实相关内容。

发表回复