您的浏览器不支持JavaScript,请开启后继续
Hadoop大数据集群部署及数据存储项目化教程(张立辉)

Hadoop大数据集群部署及数据存储项目化教程(张立辉)

  • 作者
  • 张立辉 主编

本书从实用角度出发,围绕Linux 操作系统和Hadoop 集群部署,从虚拟机安装入手,结合典型项目和案例,较为全面地介绍了大数据开发技术平台Hadoop 及其生态系统的相关知识。主要内容包括大数据技术中的Hadoop 集群部署、HDFS、MapReduce、Hive、HBase和Sqoop 等。全书所有知识点都结合具体的编程示例讲解,重要知识点配有视频讲解。 本书可作为高等职业院校...


  • ¥48.00

ISBN: 978-7-122-44858-3

版次: 1

出版时间: 2024-04-01

图书介绍

ISBN:978-7-122-44858-3

语种:汉文

开本:16

出版时间:2024-04-01

装帧:平

页数:212

图书前言

人类社会已完全进入大数据时代!当前大数据技术无处不在,正迅速深度融入金融、汽车、餐饮、电信、能源、政务、医疗、体育、娱乐等社会各行各业,并带来效益的显著提升,人们忽然发现积累十几年的老数据里竟然埋着巨大的财富,可以说,数据就是生产力!随着大数据技术的广泛应用,数据的存储和处理显得至关重要,相应地,大数据运维人才的需求量与日俱增。
本书以应用项目实例为载体,从实用角度出发,从虚拟机安装入手,结合典型项目和案例,全面介绍了大数据开发技术平台Hadoop 及其生态系统的相关知识,包括Hadoop 集群部署、HDFS、MapReduce、Hive、HBase 和Sqoop 等。书中每个知识点都结合具体的编程示例进行描述,对于重要知识点提供视频讲解,以便更好地帮助读者学习和理解大数据的核心技术。本书还设计有实践性课后练习,以巩固学生对知识点的理解和掌握。
本书适用性和可操作性强,所讲内容与大数据运维等相关岗位和职业技能大赛密切结合。同时在编写过程中充分参考了最近几届全国职业院校大数据技能竞赛和全国大学生大数据技能竞赛的知识点和技能点,将相关考点融入本书,为感兴趣的学生提供更好的参考。
本书主要特点:
(1)配套资源丰富。本书提供教学大纲、教学课件、电子教案、程序源码等多种教学资源,对重要的知识点和操作方法提供视频讲解,扫描书中对应的二维码可以在线观看、学习。
(2)紧跟时代潮流,注重技术变化。针对Hadoop 集群部署、HDFS、MapReduce编程、HBase 和Sqoop 的相关知识和操作,引入主流大数据开源组件,使学生掌握的知识
点、技能点更贴近毕业后的就业岗位。
(3)参加本书编写的教师具有多年的教学和企业实践经验,内容实践性强,重点、难点突出,能够激发学生的学习热情。
学生在使用本书时,如果在理解知识点的过程中遇到疑问,可不必纠结于所遇到的具体问题,继续往后学习,通常来讲,随着后面知识点的不断深入,前面看不懂的知识点一般就能逐渐理解。在动手练习的过程中遇到问题时,建议多思考,理清思路,认真分析问题发生的原因,并在问题解决后多进行总结。
全书各章主要内容如下。
第1章主要讲解Hadoop 的安装,使学生对大数据有初步认识,了解Hadoop 的起源、特点和生态圈,掌握虚拟机的安装、JDK 安装和配置、Hadoop 的安装等知识和技能。
第2章主要讲解Hadoop 集群部署。通过学习,学生可以了解Linux 环境设置、Hadoop配置,对Yarn 基本服务组件、应用执行过程有初步认识,掌握集群网络配置、配置文件设置和集群部署等技能。
第3章主要讲解Hadoop 分布式文件系统HDFS。通过学习,学生可以对HDFS 的设计原则和核心概念有初步认识,掌握HDFS 常用的Shell 命令和工作机制。
第4章主要讲解MapReduce 原理和编程。通过学习,学生能够熟悉MapReduce 的执行过程,掌握开发工具IDEA 的安装配置、MapReduce 的输入/输出类型,了解MapReduce 程序实现思路。
第5章主要讲解MapReduce 高级编程。通过利用MapReduce 程序实现课程安排和成绩排序的案例,使学生对MapReduce 编程有更深入的理解,掌握MapReduce 的合并编程、分区编程、连接、排序等。
第6章讲解数据仓库工具Hive。通过学习,学生可以掌握Hive 体系结构和设计特征、Hive 的安装和基本操作、数据导入导出及分析等。
第7章介绍HBase 数据库。通过学习,学生可以掌握HBase 体系结构和读写流程、HBase 的安装、Shell 命令操作和API 操作等。
第8章主要讲解数据转换和迁移工具Sqoop,包括Sqoop 工作原理、安装和基本命令,关系数据库管理系统RDBMS 到HDFS 的数据同步,利用Sqoop 将MySQL 数据库中的表数据导入Hive 和HBase 中等。
本书由张立辉担任主编,主要编写第1章~第3章;郭明珠编写第4章;张蕊编写第5章;刘心美编写第6章;孙佳帝编写第7章;吴智和韩冬梅共同编写第8章。通号郑州电气化局刘少轩进行了全书审稿工作。
本书可作为高等职业院校大数据技术、软件技术、计算机网络技术、人工智能技术等专业的教材,也可作为大数据爱好者的自学参考用书,同时也可作为企业培训教材。
由于编写时间紧,加之编写水平有限,书中难免有不妥或疏漏之处,敬请广大读者批评指正!

编者
2023年10月

精彩书摘

本书从实用角度出发,围绕Linux 操作系统和Hadoop 集群部署,从虚拟机安装入手,结合典型项目和案例,较为全面地介绍了大数据开发技术平台Hadoop 及其生态系统的相关知识。主要内容包括大数据技术中的Hadoop 集群部署、HDFS、MapReduce、Hive、HBase和Sqoop 等。全书所有知识点都结合具体的编程示例讲解,重要知识点配有视频讲解。
本书可作为高等职业院校大数据技术、软件技术、计算机网络技术、人工智能技术等专业的教材,也可作为大数据爱好者的参考书,同时也可作为企业培训教材。

目录

第1章 Hadoop 概述 1
1.1 大数据认知 1
1.1.1 大数据的定义 1
1.1.2 大数据的应用领域 2
1.1.3 大数据的特征 4
1.1.4 大数据的技术架构 5
1.2 Hadoop 认知 7
1.2.1 Hadoop 的发展史 7
1.2.2 Hadoop 的特点 9
1.2.3 Hadoop 的生态系统 10
1.2.4 Hadoop 的核心架构 11
1.3 Hadoop 的安装和配置 12
1.3.1 VMWare 的安装 12
1.3.2 Ubuntu 系统的安装 13
1.3.3 Linux 常用命令 15
1.3.4 JDK 安装和配置 16
1.3.5 Hadoop 的安装 18
课后练习 19

第2章 Hadoop 集群部署 20
2.1 Linux 环境设置 20
2.1.1 创建用户(组) 20
2.1.2 Windows 和Linux 系统间文件传输 22
2.1.3 更新apt 24
2.1.4 vim 编辑器的应用 25
2.1.5 网络配置 25
2.2 Hadoop 伪分布式搭建 27
2.2.1 环境变量的配置 27
2.2.2 SSH 安装 28
2.2.3 core-site.xml 配置文件 30
2.2.4 hdfs-site.xml 配置文件 30
2.2.5 Hadoop 伪分布式运行实例 31
2.3 Yarn 认知 33
2.3.1 初识Yarn 33
2.3.2 Yarn 基本服务组件 33
2.3.3 Yarn 执行过程 34
2.4 Hadoop 分布式搭建 35
2.4.1 部署前准备 35
2.4.2 网络配置 37
2.4.3 配置文件的设置 37
2.4.4 分布式部署 38
课后练习 39

第3章 分布式文件系统HDFS 41
3.1 HDFS 认知 42
3.1.1 HDFS 的了解 42
3.1.2 HDFS 的特性 43
3.1.3 HDFS 的设计思想 44
3.1.4 HDFS 的核心概念 44
3.2 HDFS 常用shell 命令 47
3.2.1 HDFS 查看命令 47
3.2.2 HDFS 目录操作命令 48
3.2.3 文件操作 49
3.3 HDFS 基础编程 52
3.3.1 用HDFS API 上传本地文件 52
3.3.2 用HDFS API 创建HDFS 文件 54
3.3.3 用HDFS API 读取和写入文件 55
3.3.4 用HDFS API 创建HDFS 目录 56
3.3.5 用HDFS API 查找文件所在位置 57
3.4 HDFS 工作机制 58
3.4.1 HDFS 写数据流程 58
3.4.2 HDFS 读数据流程 59
3.4.3 NameNode 工作机制 60
3.4.4 DataNode 工作机制 61
3.5 HDFS 客户信息管理 62
3.5.1 环境搭建 62
3.5.2 写入客户信息 66
3.5.3 读取客户信息 69
课后练习 69

第4章 MapReduce 编程 71
4.1 MapReduce 的工作原理 71
4.1.1 MapReduce 的由来和特点 72
4.1.2 MapReduce 执行过程 73
4.1.3 MapTask 执行过程 75
4.1.4 Reduce 执行过程 76
4.1.5 Shuffle 执行过程 77
4.2 MapReduce 程序编写 78
4.2.1 开发工具IDEA 的安装 78
4.2.2 MapReduce 输入/输出类型 81
4.2.3 MapReduce 输入处理类 81
4.2.4 MapReduce 输出处理类 83
4.2.5 入门案例—WordCount 84
4.3 统计网站最大访问次数 87
4.3.1 实体类 87
4.3.2 Mapper 类 88
4.3.3 Reducer 类 89
4.3.4 项目驱动类 90
课后练习 91

第5章 MapReduce 高级编程 92
5.1 MapReduce 高级开发一 92
5.1.1 Combiner 编程 93
5.1.2 Partitioner 编程 94
5.1.3 RecordReader 编程 97
5.2 MapReduce 高级开发二 102
5.2.1 MapReduce 连接操作 103
5.2.2 MapReduce 排序操作 109
5.2.3 MapReduce 多文件联合查询 111
5.3 实现课程名称和成绩的二次排序 115
5.3.1 实体类 115
5.3.2 Mapper 类 116
5.3.3 Reducer 类 117
5.3.4 项目驱动类编写 117
课后练习 118

第6章 Hive 数据仓库 120
6.1 什么是Hive 121
6.1.1 Hive 简介 121
6.1.2 为什么使用Hive 121
6.1.3 Hive 的优缺点 122
6.1.4 Hive 体系结构 122
6.1.5 Hive 设计特征 123
6.2 Hive 安装 124
6.2.1 伪分布式安装与配置Hive 124
6.2.2 安装与配置MySQL 126
6.3 Hive 基本操作 128
6.3.1 Hive 数据类型 128
6.3.2 数据库操作 129
6.3.3 内部表操作 131
6.3.4 外部表操作 139
6.3.5 分区表操作 139
6.3.6 分桶表操作 143
6.3.7 Hive 数据操作 144
6.4 实现购物用户数据清洗项目 148
6.4.1 导入数据 148
6.4.2 数据分析 149
6.4.3 数据导出 150
课后练习 150

第7章 HBase 数据库 152
7.1 HBase 认知 153
7.1.1 HBase 简介. 153
7.1.2 HBase 体系结构 153
7.1.3 HBase 写数据流程 154
7.1.4 HBase 读数据流程 155
7.2 HBase 安装 156
7.2.1 下载软件 156
7.2.2 伪分布式安装与配置 157
7.3 HBase shell 操作命令 159
7.3.1 HBase 数据模型 159
7.3.2 数据表空间操作 161
7.3.3 数据表操作 164
7.3.4 数据操作 170
7.4 HBase API 操作 174
7.4.1 HBase 常用的API 175
7.4.2 Configuration 对象 175
7.4.3 HTable 句柄创建 178
7.4.4 HBase 数据的CRUD 操作 179
7.5 学生成绩管理 187
7.5.1 学生成绩表数据准备 187
7.5.2 学生成绩表设计分析 188
7.5.3 学生成绩表代码实现 189
课后练习 191

第8章 Sqoop 导入和导出 193
8.1 概述 194
8.1.1 Sqoop 产生背景 194
8.1.2 Sqoop 是什么 194
8.1.3 为什么选择 Sqoop 194
8.2 工作原理 195
8.2.1 导入机制 195
8.2.2 导出机制 196
8.3 安装 196
8.3.1 前提准备 196
8.3.2 下载Sqoop 197
8.3.3 安装Sqoop 198
8.3.4 配置Sqoop 199
8.3.5 MySQL 驱动包 199
8.3.6 验证Sqoop. 200
8.4 Sqoop 的基本命令 200
8.4.1 基本操作 200
8.4.2 示例 200
8.5 数据导入和导出 208
8.5.1 从RDBMS 导入HDFS 中 208
8.5.2 MySQL 数据导入Hive 中 209
8.5.3 MySQL 数据导入HBase 209
课后练习 210

参考文献 212

发送电子邮件联系我们