Spark SQL Spark SQL是 Spark框架上用来处理结构化和半结构化数据的接口。用户借助于Spark SQL可以方便、高效地构建Spark大数据平台上的数据仓库,为Spark带来了通用、高效、多元一体的结构化数据处理能力。
Spark任务调度 在 Spark的调度管理系统中,从底层物理资源调度到上层应用,涉及众多概念和相关模块,其中作业调度管理是核心。
Spark核心编程 Spark是基于内存的大数据综合处理框架,为大数据处理提供了一个一体化解决方案,而该方案的设计与实现都是基于一个核心概念展开的,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。
Spark基础入门 Apache Spark是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。该框架对资源调度,任务的提交、执行和跟踪,节点间的通信以及数据并行处理的内在底层操作都进行了抽象。它提供了一个更高级别的API用于处理分布式数据。
CDH集群管理 CDH(Cloudera Distribution Hadoop),CDH是把Apache的Hadoop开源项目进行了商业化,集成了很多补丁,可以减少大幅的安装工作,可以直接用于生产环境。
Avro详解 Avro作为Hadoop下相对独立的子项目,是一个数据序列化的系统。
Hive编码实战
Hive优化 Hive的底层是MapReduce,当数据量太大时,往往可以通过并行来提高效率,比如通过Partition实现运行多个Reduce,可是如果处理不当则容易引发数据倾斜,从而导致效率降低,这就涉及Hive的优化。