90% 的可用数据是在过去两年中创建的,大数据一词大约是在 2005 年由 O'Reilly Media 提出的。然而,大数据的使用和理解所有可用数据的需要已经存在很长时间了。
事实上, 最早使用数据跟踪和控制商业活动的记录可以追溯到 7000 年前,当时美索不达米亚引入了会计以记录作物和畜群的生长情况。会计原则不断改进,1663 年,John Graunt 记录并检查了有关伦敦死亡人员的所有信息,他想了解正在发生的黑死病,并建立一个预警系统。在第一份有记录的统计数据分析记录中,他把他的发现收集在《自然与政治观察》一书中,该书对死亡人员进行了观察,为十七世纪的死亡原因提供了深刻的见解。因为他的工作,格兰特被认为是统计学之父。从那以后,会计准则有所改善,但是没有什么特别的事情发生。直到20世纪,信息时代才开始。
20世纪
第一个大型数据项目创建于 1937 年,由美国富兰克林·德拉诺·罗斯福福政府下令。1937 年《社会保障法》成为法律后,政府不得不跟踪 2600 万美国人和超过 300 万雇主的缴费情况。IBM 获得了为这个庞大的簿记项目开发打卡机的合同。
第一台数据处理机器出现于 1943 年,由英国人开发,用于在二战期间破译纳粹密码。这个名为Colossus 的设备以每秒 5000 个字符的速度搜索截获消息中的模式,从而将任务从几周减少到几个小时。
1952 年,国家安全局 (NSA) 成立,并在 10 年内与 12000 多名密码学家签约。在冷战期间,他们开始自动收集和处理情报信号,面临着信息过载的问题。
1965 年,美国政府决定建立第一个数据中心,通过将所有的记录传输到必须存储在单一位置的计算机磁带上,以存储超过 7.42 亿份纳税申报表和 1.75 亿组指纹。该项目后来因担心“老大哥”而退出,但人们普遍认为这是电子数据存储时代的开始。
1989 年,英国计算机科学家 Tim Berners-Lee 最终发明了万维网。他希望通过“超文本”系统促进信息共享。当时他还不知道他的发明会带来多大的影响。
到 90 年代,随着越来越多的设备连接到了互联网,数据的创建受到了刺激。 1995 年,第一台超级计算机建成,它在一秒钟内完成的工作比一个人操作的计算器在 30000 年中所做的工作还多。
21世纪
2005 年,来自 O'Reilly Media 的 Roger Mougalas 首次创造了“大数据”一词,距他们创建 Web 2.0 一词仅一年后。它指的是使用传统商业智能工具几乎无法管理和处理的大量数据。
2005 年也是雅虎创建 Hadoop 的一年。建立在 Google 的 MapReduce 之上。它的目标是索引整个万维网,如今许多组织都使用开源 Hadoop 来处理大量数据。
随着越来越多的社交网络开始出现和 Web 2.0 飞速发展,每天都会创建越来越多的数据。创新创业公司慢慢开始挖掘海量数据,政府也开始致力于大数据项目。2009 年,印度政府决定对其 12 亿居民进行虹膜扫描、指纹和照片,所有这些数据都存储在世界上最大的生物识别数据库中。
2010 年,埃里克·施密特(Eric Schmidt)在加利福尼亚州太浩湖举行的 Techonomy 会议上发表讲话,他说“从文明的曙光到 2003 年,全世界创造了 5EB 的信息。现在每两天就有同样的数量被创造出来。”
2011 年,麦肯锡的《大数据:创新、竞争和生产力的下一个前沿》报告指出,2018年,仅美国就将面临14万至19万名数据科学家和150万名数据管理人员的短缺。
在过去的几年里,大数据创业公司大量增加,都试图处理大数据,帮助组织理解大数据,越来越多的公司正在慢慢采用并转向大数据。然而,虽然看起来大数据已经存在了很长时间,但实际上,大数据就像1993年的互联网一样遥远。大数据革命仍在我们面前,因此未来几年将会发生很多变化。让大数据时代开始吧!
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。