yangjava

Spark SQL Spark SQL是 Spark框架上用来处理结构化和半结构化数据的接口。用户借助于Spark SQL可以方便、高效地构建Spark大数据平台上的数据仓库，为Spark带来了通用、高效、多元一体的结构化数据处理能力。

2021/03/04 Spark

Spark任务调度在 Spark的调度管理系统中，从底层物理资源调度到上层应用，涉及众多概念和相关模块，其中作业调度管理是核心。

2021/03/03 Spark

Spark核心编程 Spark是基于内存的大数据综合处理框架，为大数据处理提供了一个一体化解决方案，而该方案的设计与实现都是基于一个核心概念展开的，即弹性分布式数据集（Resilient Distributed Dataset，RDD）。

2021/03/02 Spark

Spark基础入门 Apache Spark是一个分布式计算框架，旨在简化运行于计算机集群上的并行程序的编写。该框架对资源调度，任务的提交、执行和跟踪，节点间的通信以及数据并行处理的内在底层操作都进行了抽象。它提供了一个更高级别的API用于处理分布式数据。

2021/03/01 Spark

CDH集群管理 CDH（Cloudera Distribution Hadoop），CDH是把Apache的Hadoop开源项目进行了商业化，集成了很多补丁，可以减少大幅的安装工作，可以直接用于生产环境。

2021/02/28 CDH

Avro详解 Avro作为Hadoop下相对独立的子项目，是一个数据序列化的系统。

2021/02/13 Avro

2021/02/12 Hive

Hive优化 Hive的底层是MapReduce，当数据量太大时，往往可以通过并行来提高效率，比如通过Partition实现运行多个Reduce，可是如果处理不当则容易引发数据倾斜，从而导致效率降低，这就涉及Hive的优化。

2021/02/11 Hive

Talk is cheap, show me the code