viewFS

第一部分：问题是什么？为什么要引入它？ 1. 背景：单点 NameNode 的“物理极限” 在 Hadoop 早期架构中，集群依赖单一的 NameNod

Spark

Spark计算流程是怎样的？ RDD Resilient Distributed Dataset（弹性分布式数据集） RDD指的是一个抽象的概念，用户操作 RDD通过操作RDD来不需要关心底层细节。 4大属性： partitions：数据分片，RDD的数据被切分为数据分片，散落在集群的不同节点上

数仓来源为什么要数仓数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。是为了统计，决策！

Hive概述 Hive核心是将HQL转换为MapReduce程序，然后将程序提交到Hadoop群集执行。Hive的最大的魅力在于用户专注于编写HQL，Hive帮您转换成为MapReduce程序完成对数据的分析。 Hive基础架构执行流程

介绍用java语言编写对跨机器集群的数据进行分布式计算 Hadoop 由三大核心模块组成：HDFS 负责存储，YARN 负责资源调度，MapReduce 负责分布式计算。核心组件： Hadoop HDFS（分布式文件存储系统Hadoop Distributed File System）：解决海