课程介绍
现今是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark Hadoo系统基础知识,概念及架构,Spark Hadoo实战技巧,Spark、Hadoo经典案例等。
培训对象
学员须具备:了解Linux系统及相关语言环境;
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。
课程收益
帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;
理解Spark、Hadoo系统适用的场景;
掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadook集群,满足生产环境的标准。
知识概要
-- 大数据整体体解决方案架构介绍;
-- Cloudera CDH安装及集群介绍;
-- Kafka的使用场景;
-- HDFS HIVE IMPALA组件;
-- HIVE、IMPALA区别:特性不同点,架构不同特点;
-- Zookeeper组件;
-- Azkaban、Yarn 调度资源协调;
-- yarn架构组件(Resourcemanager、NodeManager、ApplicationMaster);
-- yarn作业调度流程;
-- 大数据安全管理;
-- Hadoop安全机制Kerberos。
课程大纲
大数据整体体解决方案、架构介绍、流处理、批处理
硬件选型,操作系统选型
开源软件,Hadoop生态软件
大数据组件(开发语言介绍)
Cloudera CDH安装及集群介绍
Cloudera CDH 安装
Hadoop集群介绍,Hadoop集群使用
HDFS分布式文件系统介绍
Kafka的使用场景
Kakfa的设计思想,Kafka文件存储机制
持久化\负载均衡\Topic模型
消息传输一致性\分布式
Leader的选择\集群分区
生产者消费者配置
案例:Kafka从flume获取消息,实现传输
flume+sqoop介绍及开发实例
flume实现数据采集流程
flume agent配置,flume sink配置,flume 数据过滤
案例(1): 使用flume动态采集日志
Sqoop功能及软件结构
从关系型数据库导入数据到HDFS,从HDFS导入数据到关系型数据库
案例: 从HDFS导入数据到MySQL数据库
案例: 从MySQL数据库导入数据到HDFS
Hadoop集群搭建、Spark集群部署及测试
Spark交互式命令行
如何使用Spark交互式命令行、理解Spark任务提交流程、执行流程
如何通过WebUI查看任何执行状态
spark streaming运行原理spark 生态及运行原理
集群模式
Spark工作机制
RDD弹性分布式数据集,介绍RDD实现原理
理解什么是Action和Transformation,理解窄依赖与宽依赖
Spark核心概念之RDD
RDD函数
Spark核心概念之Shuffle
Spark Job执行原理分析、shuffle操作解析
Spark核心概念之Cache
Spark广播变量与累加器、Cache与checkpoint问题
Spark多语言编程
Spark SQL组件、架构
DataFrame、SparkSQL运行原理
Spark SQL基础应用
Spark Streaming运行原理、DStream
DStream 常用函数
Machine Learning On Spark简介、常用数据结构
Spark 资源调优
案例:spark streaming数据处理
HDFS HIVE IMPALA组件
DHFS分布式存储特性
DHFS访问方式
HDFS优化方案
HIVE IMPALA查询
共同点:如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等
HIVE、IMPALA区别:特性不同点,架构不同特点
Zookeeper组件
Zookeeper应用
Zookeeper注册中心管理
Zookeeper配置与协调
实验:HDFS存取数据、HIVE、IMPALA实现数据分析和报表
Azkaban、Yarn 调度资源协调
Azkaban的适用场景
Azkaban特点
Azkaban的架构
配置文件
启动executor服务器
启动web服务器
案例:多job工作流案例
yarn架构组件(Resourcemanager\NodeManager\ApplicationMaster)
yarn作业调度流程
综合案例
Flume实现日志采集+kafka(消息队列、缓存)+spark streaming(数据处理)+数据库/DHFS
sqoop 导入关系型数据库,实现hive impala查询
大数据安全管理
Apache Sentry
Hadoop安全机制Kerberos
认证过程
无认证考试
开班信息
暂无开班信息