hadoop设计☠理念和核心技术

hadoop设计理念和核心技术

hadoop狭义上指的◎是HDFS和MapReduce.HDFS就是hadoop分布式文件系统,是由多台计算机组成的集群上构件文件系统。MapReduce是把HDFS上的海量数据进行数据清洗,然后输出到HDFS上。

hadoop设计☠理念和核心技术

mapreduce计算模型适用于什么任务

MapReduce的思想核心是“分而治之”,适用于大量复杂的任✐务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。

Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。

可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。

Reduce负责“合”,即对map阶段的结果进行全局汇总。

大数据在各处理环节采用什么处理

大数据处理最重要的环节就是数据处理,数据处理通常分为两种:批处理和流处理。

批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架有 Hadoop MapReduce、Spark、Flink 等;

流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有 Storm、Spark Streaming、Flink Streaming 等。

mapreduce对数据的操作分为

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce主要对数据进行两项操作:Map和Reduce。

Map是把一组数据一对一地映射为另外一组数据,其映射的规则由一个函数来指定。

Reduce是对一组数据进行归约,归约的✃规则由一个函数来指定。

hadoop功能介绍

Hadoop是大数据处理框架,工具

hdfs和mapReduce是Hadoop的两个原始核心功能,前者是负责储存的系统,类似把试卷放在几个柜子里,后者负责并行计算,类似把100份☣试卷分给5个人批改。

Hadoop后来逐渐加了其他工具

hive提供数据汇总查询功能,给了一个窗口处理数据,对数据进行加减乘除。

hbase是一个可扩展的、非关系型数据库,不是传统的excel表那种的数据格式

spark是比mapReduce更快的计算框架

Hadoop和mysql的关系是“Friends with benefits”

Hadoop的并行处理系统加上mysql的快速处理大量数据能力,就能得到一个能够使用关系型数据并以巨大速度进行计算的数据库✈。

原创文章,作者:Ame,如若转载,请注明出处:https://www.lbseo.cn/13623.html