当前位置 博文首页 > Stream_output的博客:大数据世界入门指南 - 什么是大数据?

    Stream_output的博客:大数据世界入门指南 - 什么是大数据?

    作者:[db:作者] 时间:2021-06-25 18:45

    在古代,人们通常用马车从一个村庄到另一个村庄,但随着时间的流逝,村庄变成了城镇,人们分散开来。从一个城镇到另一个城镇的距离也增加了。所以,带着行李在城镇之间旅行就成了问题。突然,一个聪明的小伙子建议说,我们应该多给马梳洗和喂食,来解决这个问题。当我看到这个解决方案时,它并没有那么糟糕,但是你认为马能变成大象吗?我不这么认为。另一个聪明的人说,让我们用4匹马来拉动一辆车,而不是用一匹马来拉动一辆车。你们觉得这个解决方案怎么样?我认为这是一个很好的解决方案。现在,人们可以用更少的时间旅行很远的距离,甚至可以携带更多的行李。

    同样的概念也适用于大数据。大数据表示,直到今天,我们还可以将数据存储到服务器中,因为数据的容量非常有限,处理这些数据的时间也没有问题。但是现在,在当今的技术世界里,数据增长得太快了,人们很多时候都依赖于这些数据。此外,以数据现在增长的速度,将数据存储到任何服务器都是不可能的。在过去几年,人们对什么是大数据的好奇心不断高涨。据《福布斯》报道,用户每分钟观看415万个YouTube视频,在Twitter上发送45.6万条推文,在Instagram上发布4.674万张照片,在Facebook上有51万条评论和29.3万条状态更新。

    由于许多原因,世界上的数据量不断呈指数增长,各种来源和我们的日常活动产生大量的数据。随着网络的发明,整个世界都上网了,我们做的每一件事都留下了数字痕迹。随着智能对象的上线,数据增长速度迅速提高。大数据的主要来源有社交媒体网站、传感器网络、数字图像/视频、手机、购买交易记录、网络日志、医疗记录、档案、军事监控、电子商务、复杂的科学研究等。所有这些信息加起来大约是数据的千万亿字节。到2020年,数据量将达到40 ZB左右,相当于地球上每一粒沙子增加75倍。想象一下,这些活动产生了大量的数据。这种使用社交媒体、商业应用、电信和其他各种领域不断创造的数据,导致了大数据的形成。

    为了解释什么是大数据,我将涵盖以下主题:

    • 大数据的演变
    • 大数据的定义
    • 大数据的特点
    • 大数据分析
    • 大数据的行业应用

    大数据的演变:

    大数据是一个术语,指的是一组庞大而复杂的数据集,这些数据集很难使用现有的数据库管理工具或传统的数据处理应用程序进行存储和处理,挑战包括捕获、管理、存储、搜索、共享、传输、分析和可视化这些数据。

    在探讨什么是大数据之前,让我们先来深入了解一下为什么大数据这个术语变得如此重要。

    使用软盘或CD来存储数据,要追溯到21世纪早期。使用手工纸制的记录、档案、软碟和磁碟现在已经过时,其原因是数据的指数增长。人们开始将他们的数据存储在关系数据库系统中,但是随着对新发明、技术、快速响应时间应用程序的渴望和互联网的引入,即使是这样的做法现在也不够。这一代连续的、海量的数据被称为大数据。大数据还有其他一些特征,将在博客后面解释。

    据《福布斯》报道,以我们目前的速度,每天会产生2.5万亿字节的数据,但这个速度还在加快。物联网(IoT)就是这样一种技术,在这种加速中扮演着重要的角色,如今90%的数据都是在过去两年中产生的。

    大数据的定义:

    所以在解释什么是大数据之前,让我先告诉你什么不是!与大数据相关的最常见的误解是,它只是关于数据的大小或容量,但实际上,这不仅仅是收集大量数据的问题。大数据是指从各种数据源中涌入的具有不同格式的海量数据,即使在以前,数据库中也存储着大量的数据,但是由于这些数据的性质不同,传统的关系数据库系统无法处理这些数据。大数据不仅仅是一个不同格式的数据集集合,它是一个重要的资产,可以用来获得可计数的利益。

    大数据有三种不同的格式:

    1. 结构化:用固定模式组织数据格式。例:RDBMS;结构化数据可以使用关系型数据库来表示和存储,如MySQL、Oracle、SQL Server等,表现二维形式的数据。可以通过固有键值获取相应信息。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。但是,显然,它的扩展性不好。
    2. 半结构化:不具有固定格式的部分组织的数据。例:XML、HTML、JSON;半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表。
      半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。常见的半结构数据有XML和JSON。
    3. 非结构化:使用未知模式的无组织数据。例如:音频、视频文件等;非结构化数据,就是没有固定结构的数据,包括人为生成和机器生成两种方式,人为生成(文本文件:文字处理、电子表格、演示文稿、电子邮件、日志;电子邮件:电子邮件由于其元数据而具有一些内部结构,我们有时将其称为半结构化。但是,消息字段是非结构化的,传统的分析工具无法解析它;媒体:MP3、数码照片、音频文件、视频文件等);机器生成(卫星图像:天气数据、地形、军事活动;科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据;数字监控:监控照片和视频;传感器数据:交通、天气、海洋传感器)。一般直接整体进行存储,而且一般存储为二进制的数据格式。

    大数据的特点:

    以下是关于大数据相关的特征:

    上面的图片描绘了大数据的五个V:

    • VOLUME(量):巨大的数据量。 这是指以秒为单位生成的数据量,如此大量的数据主要由机器,网络,社交媒体和传感器生成,包括结构化,半结构化和非结构化数据。
    • VARIETY(多样性) :非结构化数据多样性。这是指不同的数据格式,数据曾经以数据源(如文件系统,电子表格和数据库)的.txt,.csv和.dat格式存储。这种类型的数据驻留在记录或文件中的固定字段中,称为结构化数据;如今,数据并不总是采用传统的结构化格式,较新的半结构化或非结构化数据形式也是通过各种方法生成的,这些种类的数据格式会产生存储和分析数据的问题,这是我们需要在大数据领域克服的主要挑战之一。
    • VALUE(价值):数据的价值。这是指从大数据的数据分析中获得的价值,大数据的价值在于组织,如何将自己转变为大数据驱动型公司,并利用大数据分析的洞察力来决策。
    • VELOCITY(速度):数据的增长速度快。这是指数据生成、存储、分析和移动的速度,随着互联网连接设备的可用性,无线或有线机器和传感器可以在创建数据后立即传递。这可以实现实时数据流,并帮助企业做出有价值的快速决策。
    • VERACITY(真实性):这指的是数据的质量,例如数据中的可信度、偏差、噪声和异常,损坏的数据很正常,它可能由于多种原因而产生,例如拼写错误,缺失或不常见的缩写,数据重新处理和系统故障。但是忽略这些,恶意数据可能会导致数据分析不准确,最终导致错误的决策。因此,确保数据在数据试听和校正方面是正确的,对于大数据分析非常重要。

    但是随着数据的不断发展,V也会不断发展,它们是随着时间的推移逐渐发展起来的:

    • Variability(可变性):这是指数据的变化。这意味着相同的数据在不同的上下文中可能具有不同的含义,在进行分析时这一点尤为重要,分析算法能够理解上下文并发现该上下文中数据的确切含义和值。
    • Volatility(波动性):这指的是数据有效和存储的时间。这对于实时分析尤为重要。它需要确定数据的目标时间窗口,以便分析人员可以专注于特定问题并从分析中获得良好的性能。
    • Visualization(可视化):这指的是使数据以易于理解的方式呈现。可视化不仅意味着普通的图形或饼图,它还使得易于理解的多维视图中的大量数据易于理解,可视化是一种显示数据变化的创新方法,它需要大数据分析师和业务领域专家之间的大量交互,对话和共同努力,使可视化变得有意义。

    大数据分析:

    既然我已经告诉了你什么是大数据,以及它是如何以指数的方式产生的,让我向你展示一个非常有趣的例子,关于星巴克,一家领先的咖啡连锁店是如何利用这个大数据的。

    《福布斯》杂志的一篇文章,报道了星巴克如何利用大数据来分析顾客的偏好,从而提升和个性化他们的体验。他们分析了会员的咖啡购买习惯和他们喜欢的饮料,以及他们通常在一天中的什么时候点咖啡。因此,即使人们去星巴克的新店,该店的销售点系统也能通过智能手机识别顾客,并向咖啡师推荐他们喜欢的咖啡。此外,根据订购偏好,他们的应用程序将向客户推荐可能有兴趣尝试的新产品,这就是我们所说的大数据分析。

    基本上,大数据分析主要被公司用来促进他们的增长和发展,这主要涉及到对给定的数据集上应用各种数据挖掘算法,这将帮助他们更好地做出决策。?

    处理大数据的工具有很多,如Hadoop、Pig、Hive、Cassandra、Spark、Kafka等,这取决于应用场景的需求。

    ?大数据的应用:

    以下是大数据应用发生革命性变化的一些领域:

    • 智能医疗:利用病人的pb级数据,企业可以提取有意义的信息,然后构建可以提前预测病人病情恶化的应用程序。
    • 电信:电信部门收集信息,分析信息,为不同的问题提供解决方案。通过使用大数据应用程序,电信公司已经能够显著减少数据包丢失(当网络过载时发生),从而为客户提供无缝连接。
    • 零售业:零售业的利润率最高,也是大数据的最大受益者之一。在零售业中使用大数据的好处是可以了解消费者的行为。Amazon的推荐引擎根据消费者的浏览历史提供建议。
    • 交通管理:交通拥堵是全球许多城市面临的主要挑战。随着城市人口日益密集,有效利用数据和传感器将是更好地管理交通的关键。
    • 制造业:分析制造业的大数据可以减少零部件缺陷,提高产品质量,提高效率,节省时间和金钱。
    • 搜索质量:每次我们从谷歌中提取信息时,我们都同时为它生成数据。谷歌存储这些数据并使用它们来提高搜索质量。

    大数据领域的职业机会包括:大数据分析师、大数据工程师、大数据解决方案架构师等。根据IBM的数据,59%的数据科学和分析(DSA)工作需求来自金融和保险、专业服务和IT。世界范围内的大数据分析使用拥有巨大的增长,对数据分析专业人士的需求也不断增长。

    ?

    参考文章:https://www.edureka.co/blog/what-is-big-data/