viewFS
第一部分:问题是什么?为什么要引入它? 1. 背景:单点 NameNode 的“物理极限” 在 Hadoop 早期架构中,集群依赖单一的 NameNod
第一部分:问题是什么?为什么要引入它? 1. 背景:单点 NameNode 的“物理极限” 在 Hadoop 早期架构中,集群依赖单一的 NameNod
Spark计算流程是怎样的? RDD Resilient Distributed Dataset(弹性分布式数据集) RDD指的是一个抽象的概念,用户操作 RDD通过操作RDD来不需要关心底层细节。 4大属性: partitions:数据分片,RDD的数据被切分为数据分片,散落在集群的不同节点上
数仓来源 为什么要数仓 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 是为了统计,决策!
Hive概述 Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。Hive的最大的魅力在于用户专注于编写HQL,Hive帮您转换成为MapReduce程序完成对数据的分析。 Hive基础架构 执行流程
介绍 用java语言编写 对跨机器集群的数据进行分布式计算 Hadoop 由三大核心模块组成:HDFS 负责存储,YARN 负责资源调度,MapReduce 负责分布式计算。 核心组件: Hadoop HDFS(分布式文件存储系统Hadoop Distributed File System):解决海