•   

    大数据根本观点

      

    大数据根本观点

      

    大数据根本观点

      上层为计算引擎。 MapReduce:用于通过YARN调配的资源执行简单程序

      下面笔者主要介绍数据处理平台中任务的一般流程来方便大家更好地了解上文提到的框架。

      笔者测试的大数据处理平台的离线任务的数据源一般包含Hdfs、Hive、Mysql。实时的数据源为Kafka。

      在了解了什么是大数据之后,我们先了解下开源大数据的鼻祖——hadoop(2.0)生态环境。

      底层为存储层。 HDFS:分布式存储文件系统,几乎所有上层应用的基础。

      而Saprk仅仅一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

      Hadoop实质上更多是一个分布式数据基础设施,它包含文件存储、计算框架、资源调度等部分。

      但不论是离线还是实时任务主要包含以下三个过程:数据源抽取数据、数据转换、加载到数据源。

      还有的将大数据特点定义为6V模型,即增加了Valence(连接)、Value(价值)2V。

      笔者今年年初开始接触大数据平台的相关测试,由于之前对大数据知识的积累并不多,所以测试期间也是恶补了许多大数据的知识。

      这里我们可以选择Hadoop的HDFS,也可以选择其它基于云的数据系统平台。

      相反,Spark也不是非要依附在Hadoop身上才能生存。但它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。

      顶层为查询分析层,主要对计算引擎进行封装。 Hive:高等级的编程模型,类似SQL的查询 Pig:高等级的编程模型,数据流脚本

      像我们熟悉的spark Streaming框架,其实是微批处理框架(累计一定时间,通常为几秒的数据为一个batch),每一次批处理的数据量较小,以此达到接近实时处理的目的。

      本篇主要介绍了大数据相关的一些基本概念以及各种框架的分类。作为大数据入门的一些必备知识。其中很多具体计算流程以及区别并没有详述,感兴趣的小伙伴可以自行查阅文档学习或者留言私聊。返回搜狐,查看更多

      现如今,我们已经从互联网时代过渡到大数据时代。无论你对大数据知识了解多少,这个名词肯定不会陌生。

      大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。

      留存分析本质是求两个数据源之间交叉的部分占其中一个的比率,由此可见,在留存分析中最重要的算子就是连接运算和聚合运算。

      中间层是资源及数据管理层。 YARN:用于调配底层资源、管理进程的管理器

    上一篇:

    下一篇:

    数据清洗
    2019-11-15 09:50
    阅读数 2881
    评论数 1
I'm loading
 家电维修|北京赛车pk10