2014年,马云提出了一个重要的新观点:“人类正从IT时代走向DT时代。”
所谓IT,就是Information Technology,信息科技。所谓DT,就是Data Technology,数据科技。
DT是IT的基础上更进一步的技术,通过对数据的收集、分析、处理,更好的服务于每一个人的生活和生产。
大家可以想一想,在二三十年前,获取信息的方式也就是读读书、看看报。一个星期的报纸加起来才有几个字?
而在信息化时代,我们每天吃饭、运动、浏览新闻、购买商品、甚至睡眠时,产生的数据都会呈爆炸式增长。
这么多的数据本身其实没有什么用处,但数据里面包含一个很重要的东西,叫做信息。
信息会包含很多规律,我们需要把这些规律提取出来,最终应用于实践。大数据分析的最终目的就是挖掘数据背后的价值。
大数据技术其实离我们的生活并不远。最常见的就是电商平台的推荐机制。
我们经常会发现,在电商平台上买了A,又被推荐了B,恰好B又是自己想买的,这就是基于大数据带来的用户兴趣预测,非常有助于提升营销效率和用户粘性。
再比如2020年疫情期间,百度、众云利用大数据平台优势打造"疫情地图",实现疫情数据实时更新,以及潜在疫情动态监测,这就是大数据技术应用于联防联控的一个体现。
虽然业界对大数据还没有一个统一的定义,但是大家普遍认为,大数据具备 Volume、Velocity、Variety 和 Value 四个特征。
第一个特征是Volume:表示大数据的数据体量巨大。数据集合的规模已经从 GB 级增加到 TB 级再增加到 PB 级,近年来,数据量甚至开始以 EB 和 ZB 来计数。
据国际权威机构Statista的统计和预测,全球的数据量在2020年有望超过50ZB,也就是50万亿GB。
举个最直观的例子,百度首页导航每天需要提供的数据超过1-5PB,如果将这些数据打印出来,会超过 5000 亿张 A4 纸。
第二个特征是Velocity:表示大数据的数据产生、处理和分析的速度在持续加快。业界对大数据的处理能力有一个称谓——“ 1 秒定律”。
就是说对处理速度的要求一般是在秒级时间范围内给出分析结果。大数据的快速处理能力充分体现出它与传统的数据处理技术的本质区别,那就是可以从各种类型的数据中快速获得高价值的信息。
第三个特征是Variety:表示大数据的数据类型繁多。传统 IT 产业产生和处理的数据类型较为单一,大部分是结构化数据。
不过,随着传感器、智能设备、社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生的数据类型无以计数。
现在的数据类型不再只是格式化数据,更多的是半结构化或者非结构化数据,如 XML、邮件、博客、即时消息、视频、照片、点击流、日志文件等。