1. Spark操作sql

    Spark SQL Spark SQL是 Spark框架上用来处理结构化和半结构化数据的接口。用户借助于Spark SQL可以方便、高效地构建Spark大数据平台上的数据仓库,为Spark带来了通用、高效、多元一体的结构化数据处理能力。

    2021/03/04 Spark

  2. Spark任务调度

    Spark任务调度 在 Spark的调度管理系统中,从底层物理资源调度到上层应用,涉及众多概念和相关模块,其中作业调度管理是核心。

    2021/03/03 Spark

  3. Spark核心编程

    Spark核心编程 Spark是基于内存的大数据综合处理框架,为大数据处理提供了一个一体化解决方案,而该方案的设计与实现都是基于一个核心概念展开的,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。

    2021/03/02 Spark

  4. Spark基础入门

    Spark基础入门 Apache Spark是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。该框架对资源调度,任务的提交、执行和跟踪,节点间的通信以及数据并行处理的内在底层操作都进行了抽象。它提供了一个更高级别的API用于处理分布式数据。

    2021/03/01 Spark

  5. Cdh集群管理

    CDH集群管理 CDH(Cloudera Distribution Hadoop),CDH是把Apache的Hadoop开源项目进行了商业化,集成了很多补丁,可以减少大幅的安装工作,可以直接用于生产环境。

    2021/02/28 CDH

  6. Avro详解

    Avro详解 Avro作为Hadoop下相对独立的子项目,是一个数据序列化的系统。

    2021/02/13 Avro

  7. Hive编码实战

    Hive编码实战

    2021/02/12 Hive

  8. Hive优化

    Hive优化 Hive的底层是MapReduce,当数据量太大时,往往可以通过并行来提高效率,比如通过Partition实现运行多个Reduce,可是如果处理不当则容易引发数据倾斜,从而导致效率降低,这就涉及Hive的优化。

    2021/02/11 Hive