当前位置 博文首页 > Stream_output的博客:大数据世界入门指南 - 什么是大数据?
在古代,人们通常用马车从一个村庄到另一个村庄,但随着时间的流逝,村庄变成了城镇,人们分散开来。从一个城镇到另一个城镇的距离也增加了。所以,带着行李在城镇之间旅行就成了问题。突然,一个聪明的小伙子建议说,我们应该多给马梳洗和喂食,来解决这个问题。当我看到这个解决方案时,它并没有那么糟糕,但是你认为马能变成大象吗?我不这么认为。另一个聪明的人说,让我们用4匹马来拉动一辆车,而不是用一匹马来拉动一辆车。你们觉得这个解决方案怎么样?我认为这是一个很好的解决方案。现在,人们可以用更少的时间旅行很远的距离,甚至可以携带更多的行李。
同样的概念也适用于大数据。大数据表示,直到今天,我们还可以将数据存储到服务器中,因为数据的容量非常有限,处理这些数据的时间也没有问题。但是现在,在当今的技术世界里,数据增长得太快了,人们很多时候都依赖于这些数据。此外,以数据现在增长的速度,将数据存储到任何服务器都是不可能的。在过去几年,人们对什么是大数据的好奇心不断高涨。据《福布斯》报道,用户每分钟观看415万个YouTube视频,在Twitter上发送45.6万条推文,在Instagram上发布4.674万张照片,在Facebook上有51万条评论和29.3万条状态更新。
由于许多原因,世界上的数据量不断呈指数增长,各种来源和我们的日常活动产生大量的数据。随着网络的发明,整个世界都上网了,我们做的每一件事都留下了数字痕迹。随着智能对象的上线,数据增长速度迅速提高。大数据的主要来源有社交媒体网站、传感器网络、数字图像/视频、手机、购买交易记录、网络日志、医疗记录、档案、军事监控、电子商务、复杂的科学研究等。所有这些信息加起来大约是数据的千万亿字节。到2020年,数据量将达到40 ZB左右,相当于地球上每一粒沙子增加75倍。想象一下,这些活动产生了大量的数据。这种使用社交媒体、商业应用、电信和其他各种领域不断创造的数据,导致了大数据的形成。
为了解释什么是大数据,我将涵盖以下主题:
大数据是一个术语,指的是一组庞大而复杂的数据集,这些数据集很难使用现有的数据库管理工具或传统的数据处理应用程序进行存储和处理,挑战包括捕获、管理、存储、搜索、共享、传输、分析和可视化这些数据。
在探讨什么是大数据之前,让我们先来深入了解一下为什么大数据这个术语变得如此重要。
使用软盘或CD来存储数据,要追溯到21世纪早期。使用手工纸制的记录、档案、软碟和磁碟现在已经过时,其原因是数据的指数增长。人们开始将他们的数据存储在关系数据库系统中,但是随着对新发明、技术、快速响应时间应用程序的渴望和互联网的引入,即使是这样的做法现在也不够。这一代连续的、海量的数据被称为大数据。大数据还有其他一些特征,将在博客后面解释。
据《福布斯》报道,以我们目前的速度,每天会产生2.5万亿字节的数据,但这个速度还在加快。物联网(IoT)就是这样一种技术,在这种加速中扮演着重要的角色,如今90%的数据都是在过去两年中产生的。
所以在解释什么是大数据之前,让我先告诉你什么不是!与大数据相关的最常见的误解是,它只是关于数据的大小或容量,但实际上,这不仅仅是收集大量数据的问题。大数据是指从各种数据源中涌入的具有不同格式的海量数据,即使在以前,数据库中也存储着大量的数据,但是由于这些数据的性质不同,传统的关系数据库系统无法处理这些数据。大数据不仅仅是一个不同格式的数据集集合,它是一个重要的资产,可以用来获得可计数的利益。
大数据有三种不同的格式:
以下是关于大数据相关的特征:
上面的图片描绘了大数据的五个V:
但是随着数据的不断发展,V也会不断发展,它们是随着时间的推移逐渐发展起来的:
既然我已经告诉了你什么是大数据,以及它是如何以指数的方式产生的,让我向你展示一个非常有趣的例子,关于星巴克,一家领先的咖啡连锁店是如何利用这个大数据的。
《福布斯》杂志的一篇文章,报道了星巴克如何利用大数据来分析顾客的偏好,从而提升和个性化他们的体验。他们分析了会员的咖啡购买习惯和他们喜欢的饮料,以及他们通常在一天中的什么时候点咖啡。因此,即使人们去星巴克的新店,该店的销售点系统也能通过智能手机识别顾客,并向咖啡师推荐他们喜欢的咖啡。此外,根据订购偏好,他们的应用程序将向客户推荐可能有兴趣尝试的新产品,这就是我们所说的大数据分析。
基本上,大数据分析主要被公司用来促进他们的增长和发展,这主要涉及到对给定的数据集上应用各种数据挖掘算法,这将帮助他们更好地做出决策。?
处理大数据的工具有很多,如Hadoop、Pig、Hive、Cassandra、Spark、Kafka等,这取决于应用场景的需求。
以下是大数据应用发生革命性变化的一些领域:
大数据领域的职业机会包括:大数据分析师、大数据工程师、大数据解决方案架构师等。根据IBM的数据,59%的数据科学和分析(DSA)工作需求来自金融和保险、专业服务和IT。世界范围内的大数据分析使用拥有巨大的增长,对数据分析专业人士的需求也不断增长。
?
参考文章:https://www.edureka.co/blog/what-is-big-data/