Hive实战
数据仓库框架Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
Hadoop实战
Hadoop分布式文件系统 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是Hadoop主要应用的一个分布式文件系统。实际上,Hadoop中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口,HDFS只是这个抽象文件系统的一个实例。
Hadoop集群资源管理 YARN是Hadoop的集群资源管理系统,在Hadoop 2中被引入,最初是为了改善MapReduce的缺陷,同时YARN也具有通用性,同样可以支持其他的分布式计算模式。
Hadoop监控管理 本章我们将具体介绍如何维护集群以保证其正常运行。毋庸置疑,维护一个大型集群稳定运行是必要的,手段也是多样的。
Hadoop分布式离线计算框架 Hadoop中有两个重要的组件:一个是HDFS,另一个是MapReduce,HDFS用来存储大批量的数据,而MapReduce则是通过计算来发现数据中有价值的内容。2004年,Google发表了一篇论文,向全世界的人们介绍了MapReduce。MapReduce被广泛地应用于日志分析、海量数据排序、在海量数据中查找特定模式等场景中。
Hadoop安装与配置 Hadoop安装可以是单节点、伪分布式和完全分布式。