大数据开发与应用
为进入大数据世界点亮一盏明灯
图书的优势和特点
本书系统讲解了目前大数据开发领域的主流技术与实用技能,尤其侧重于对Hadoop生态系统的讲解,包括Hadoop框架的运作流程、执行原理及主要成员等内容。 全书共分12章,分别对大数据概论、Hadoop集群环境搭建以及HDFS、MapReduce、ZooKeeper、HBase、Hive、Storm、Sqoop、Kafka、Spark和Elasticsearch的核心知识进行了介绍,同时辅以对各种API及实例的深入解析与实践指导,旨在使读者迅速理解并掌握大数据的相关知识框架体系,并提高动手能力,熟练使用Hadoop集成环境等大数据开发工具完成大数据相关应用的开发、调试和运行工作。 本书使用面广,可作为高等学校大数据专业、计算机类专业的主干教材,也可作为大数据从业者、软件开发人员以及程序设计爱好者的参考用书。
本书目录

目录
第1章 概论
1.1 大数据技术简介
1.1.1 大数据技术的起源
1.1.2 大数据应用领域
1.1.3 大数据基础设施
1.2 大数据技术与大数据开发
1.2.1 什么是大数据开发
1.2.2 大数据开发的作用
1.2.3 大数据开发技术框架
1.2.4 大数据开发与大数据分析的异同
1.3 本书中你将学习到的内容


第2章 Hadoop集群环境搭建
2.1 Hadoop简介
2.1.1 Hadoop的优点
2.1.2 Hadoop生态系统
2.2 Hadoop集群环境搭建
2.2.1 修改主机名
2.2.2 修改主机IP映射
2.2.3 配置SSH无密码登录
2.2.4 安装JDK
2.2.5 安装Hadoop


第3章 HDFS
3.1 HDFS的概念
3.2 HDFS的特点
3.3 HDFS的原理
3.3.1 HDFS体系结构
3.3.2 HDFS主要组件
3.4 HDFS的文件读写
3.4.1 HDFS读数据
3.4.2 HDFS写数据
3.5 HDFS安全性措施
3.6 HDFS命令行操作
3.7 常用HDFS Java API详解
3.7.1 新建Hadoop项目
3.7.2 读取数据
3.7.3 创建目录
3.7.4 创建文件
3.7.5 删除文件
3.7.6 遍历文件和目录
3.7.7 复制上传本地文件
3.7.8 复制下载文件


第4章 MapReduce
4.1 MapReduce概述
4.2 MapReduce技术特征
4.3 MapReduce工作流程
4.3.1 MapReduce工作原理
4.3.2 MapReduce任务流程
4.4 MapReduce工作组件
4.5 MapReduce错误处理机制
4.5.1 硬件故障处理
4.5.2 任务失败处理
4.6 案例分析一:单词计数
4.7 案例分析二:数据去重


第5章 ZooKeeper
5.1 ZooKeeper简介
5.1.1 主要优势
5.1.2 总体架构
5.1.3 应用场景
5.2 ZooKeeper特性
5.2.1 数据模型
5.2.2 节点类型
5.2.3 Watcher机制
5.2.4 分布式锁
5.2.5 权限控制
5.3 ZooKeeper问题与应对
5.4 ZooKeeper安装和配置
5.4.1 单机模式
5.4.2 集群模式
5.4.3 伪分布模式
5.5 ZooKeeper命令行工具
5.6 ZooKeeper Java API
5.6.1 常用接口
5.6.2 创建节点
5.6.3 添加数据
5.6.4 获取节点
5.6.5 删除节点


第6章 HBase
6.1 HBase简介
6.2 HBase与RDBMS
6.3 HBase数据结构
6.3.1 相关概念
6.3.2 存储特点
6.4 HBase组成架构
6.4.1 HMaster
6.4.2 HRegionServer
6.4.3 HRegion
6.4.4 ZooKeeper
6.4.5 HFile
6.4.6 HLog
6.5 HBase表结构
6.6 HBase集群安装
6.6.1 单机模式
6.6.2 伪分布模式
6.6.3 集群模式
6.7 HBase Shell
6.8 HBase Java API操作
6.8.1 创建Java工程
6.8.2 创建表
6.8.3 添加数据
6.8.4 查询数据
6.8.5 删除数据


第7章 Hive
7.1 Hive简介
7.1.1 系统结构和工作方式
7.1.2 数据模型
7.1.3 内置服务
7.2 Hive环境搭建
7.3 Hive命令行
7.3.1 Hive CLI交互式命令行
7.3.2 Hive命令
7.4 HiveQL详解
7.4.1 DDL操作
7.4.2 DML操作
7.5 Hive JDBC
7.5.1 配置和启动HiveServer2
7.5.2 JDBC访问Hive
7.5.3 JDBC示例代码


第8章 Storm
8.1 Storm简介
8.1.1 基础知识
8.1.2 集群环境搭建
8.2 Topology入门
8.2.1 Hello World Topology
8.2.2 Topology生命周期
8.3 命令行和UI
8.4 常用API详解 


第9章 Sqoop
9.1 Sqoop简介
9.1.1 Sqoop基本架构
9.1.2 Sqoop实际应用
9.2 导入导出工具
9.2.1 数据导入工具import
9.2.2 数据导出工具export
9.3 Sqoop安装与配置
9.4 案例分析:使用Sqoop进行数据导入导出
9.4.1 将MySQL数据导入HDFS中
9.4.2 将HDFS中数据导出到MySQL中
9.4.3 将MySQL数据导入到HBase中


第10章 Kafka
10.1 Kafka简介
10.1.1 基本概念
10.1.2 集群架构
10.1.3 主题和分区
10.1.4 消费者组
10.1.5 主要特性
10.1.6 应用场景
10.2 Kafka集群搭建
10.3 Kafka集群测试
10.3.1 创建主题
10.3.2 查询主题
10.3.3 创建生产者
10.3.4 创建消费者
10.4 Kafka Java API
10.4.1 创建生产者
10.4.2 创建消费者
10.4.3 运行程序


第11章 Spark
11.1 Spark简介
11.1.1 基本概念
11.1.2 优势
11.1.3 核心组件
11.1.4 应用程序执行流程
11.2 Spark集群环境搭建
11.3 Spark Shell命令操作
11.4 Spark编程
11.4.1 IntelliJ IDEA开发环境搭建
11.4.2 初始化SparkContext
11.4.3 向Spark提交应用程序
11.4.4 RDD编程
11.5 Spark数据读写
11.5.1 文件读取与保存
11.5.2 文件系统和数据库简介


第12章 Elasticsearch
12.1简介
12.1.1 ES起源
12.1.2 ES的功能特性
12.1.3 ES的应用场景
12.2 基础知识
12.2.1 基本概念
12.2.2 面向文档
12.2.3 与ES交互
12.3 环境搭建
12.4 RESTful API简介
12.4.1 集群操作
12.4.2 文档操
12.4.3 数据操作
12.5 Java API简介
12.5.1 传输客户端简介
12.5.2 文档API搜索API

Copyright©2013-2018 青岛英谷教育科技股份有限公司 All Rights Reserved

http://www.121ugrow.com   邮箱:yinggu@121ugrow.com   鲁ICP备13014014

 鲁公网安备 37021202000731号