课程

课程介绍

本教学大纲涵盖了企业大数据专家级认证考试(Enterprise Big Data Professional examination)。 它基于大数据框架网站(www.bigdataframework.org )上发布的第一版企业大数据专家指南(“文本”),适用于参加考试的所有考生。教学大纲的主要目的是为参与大数据解决方案和服务的人员提供认证的基础,它描述了与使用大数据框架相关的学习成果,并描述了各个认证级别所期望考生达到的学习成果的范围。

培训对象

认证针对参与企业大数据分析的人员,需要了解大数据背后原理的工作知识,并需要知道相关术语和实践背后的一些理论;
因此,企业大数据专家级认证的目标受众包括:
数据分析师(Data Analysts)/业务分析师(Business Analysts)/IT 顾问(IT Advisors)/IT 专家(IT Professionals)。

课程收益

1) 企业大数据专家级认证目的是衡量考生是否对大数据框架有足够的知识和理解,以及考生是否能够理解基本数据处理技术和算法,并以此解决实际问题;
2) 经过认证的企业大数据专家能分析实践和并掌握技术概念,这些概念包括当前大数据环境和工具中的特征。

知识概要

-- 大数据概念和关键驱动因素;
-- 大数据框架;
-- 大数据战略;
-- 大数据架构;
-- 大数据算法;
-- 大数据流程;
-- 大数据职能;
-- 人工智能。

课程大纲

模块

学习内容

大数据概念和关键驱动因素

大数据的定义

大数据的四个特征的名称

两类机器学习的名称和通常与之相关的技术

监督式 - 分类和回归

非监督式 - 聚类和关联

大数据的起源和三类大数据发展阶段的特点:

大数据的四个特征以及它们如何区分大数据和传统数据分析

1. Volume – 体量 2. Velocity – 速率 3. Variety- 多样性 4. Veracity – 可信度

四种识别模式

1.analysis - 分析 2.analytics- 解析 3.business intelligence - 商业智能 4.Big Data - 大数据

不同类型的解析目的

1. descriptive - 描述性 2. diagnostic - 诊断性 3. predictive - 预测性 4. prescriptive - 规范性

大数据环境中元数据的功能

三类数据类型的特征

1. Structured - 结构化 2. Unstructured - 非结构化 3. Semi-structured - 半结构化

Hadoop 在分布式存储和分布式处理中的作用

了解两类机器学习,并能够识别相关样

1.Supervised - 监督式 2.Unsupervised - 非监督式

大数据框架

大数据框架六种能力的名称

如何建立大数据组织的六大数据框架能力的相关性

大数据成熟度模型的不同层次

Level 1 - Analytically Impaired – 分析能力有损级

Level 2 - Localized Analytics – 分析能力本地级

Level 3 - Analytical Operation - 分析能力运营级

Level 4 - Analytical Enterprise - 分析能力企业级

Level 5 - Data Driven Enterprise - 数据驱动企业级

大数据战略

制定大数据战略的五个步骤及其顺序

制定大数据战略所需要的六个业务驱动影响因素,以及如何使用大数据来产生竞争优势

优先级矩阵

1. 目的 2. 结构

制定大数据战略五个步骤中的每一步所涉及的活动:

步骤1 - 定义业务目标

步骤2 - 评估当前现状

步骤3 - 识别用例并排优先级

步骤4 - 制定大数据路线图

步骤5 - 通过变更管理植入

大数据架构

指导性架构与其目标

NIST 大数据参考架构的主要特点

整体结构(5 个逻辑角色和2个维度)

角色名称

维度名称

信息如何在不同角色之间流动

Hadoop 架构下核心组件的名称

NameNode – 名字节点

MapReduce – 映射归约

SlaveNode - 从属节点

Job tracker – 工作跟踪器

HDFS - 分布式文件系统

使用大数据参考架构的收益

与参考架构中的逻辑角色相关联的职能和活动

System Orchestrator - 系统编配器

Data Provider - 数据提供者

Big Data Application Provider - 大数据应用提供者

Big Data Framework Provider - 大数据框架提供者

Data Consumer - 数据消费者

本地式处理和分布式存储处理的区别

面对海量数据的三种大数据存储系统

Direct Attached Storage (DAS)- 直接附加存储

Network Attached Storage (NAS) - 网络附加存储

Storage Area Network (SAN) - 存储区域网络

大数据存储机制

File systems - 文件系统

NoSQL databases - NoSQL 数据库

Parallel programming models - 并行编程模型

大数据实证分析体系结构

Real time analysis- 实时分析

Off-line analysis - 离线分析

Hadoop 在大数据环境中的功能

以下 Hadoop 组件的角色

NameNode – 名字节点

MapReduce – 映射归约

SlaveNode - 从属节点

Job tracker – 工作跟踪器

HDFS – 分布式文件系统

大数据算法

什么是描述性统计信息

关联的关键要素

什么是关联(correlation

两种用于关联的变量类型

关于Pearson皮尔逊关联系数的关键要素

分类的关键要素

它能做什么?

机器学习的形式是什么?

对于每种类型的描述性统计,了解每个统计操作/分布措施或显示

Central tendency statistics - 集中趋势统计

Dispersion statistics and – 离散统计

Distribution Shapes – 分布形态

偏度特征

Positive - 正偏度

Negative – 负偏度

大数据计算中为什么要标准化

识别和计算描述性统计的示例

不同类型的分布式图形的不同类型特征

1.Frequency - 频率分布 2.Probability - 概率分布 3.Sampling – 抽样分布 4.Normal – 正态分布

为什么分布式图形对大数据和数据科学很重要

Probability - 概率分布

Sampling – 抽样分布

Normal – 正态分布

Skew – 偏度

人口、抽样和偏倚对大数据的影响

如何在大数据中使用关联,并识别这些示例

关联与回归的区别

识别分类算法的示例

聚类的关键特性

它能做什么?

大多数聚类算法的典型着眼点

如何在大数据的上下文中使用异常检测

每个可视化技术的关键特性以及每种技术是如何使用的

1. 柱形图 2. 直方图 3. 散点图 4. 双标图 5. 箱型图 6.正态分布Q-Q图 7.饼状图

大数据流程

用于大数据中三个的主要流程及其主要特征

在数据分析流程中的步骤是通常使用的下列工具/技术以及它们在该步骤中的应用方式

1.数据识别图 2.数据可视化技术 3. 算法

形成大数据项目业务目标的六类问题的特点

1.描述性 2.探索性 3.推理性 4.预测性 5.因果性 6.机理性

数据分析流程中每个步骤的重要性以及每个步骤中发生的情况

1.确定目标 2.数据识别 3.数据收集和采购 4.数据评审 5.数据清洗 6.模型建立 7.数据处理 8.沟通结果

数据治理流程中每个步骤的重要性以及每个步骤中发生的情况

1.制定数据质量战略 2.评审合规性和隐私性需求 3.制定数据治理政策 4.分配角色和职责

数据管理流程中每个步骤的重要性以及每个步骤中发生的情况

1.指定指标和绩效指标 2.监控和管理企业数据 3.数据改进和验证 4.对数据管理人员进行沟通和培训

大数据职能

卓越的大数据中心的五大支柱名称和每个支柱的关键特征:

1.大数据团队 2.大数据实验室 3.概念验证 4.敏捷方法 5.计费模型

卓越的大数据中心的收益

大数据团队中关键角色的典型职责和技能

1.大数据分析师 2.大数据科学家 3.大数据工程师

大数据组织的六个成功因素

人工智能

基于图灵测试的智能化的实用型定义

关于认知分析的关键因素

1.什么是认知分析 2.认知分析与其他形式的分析之间差异的两个主要特征

认证过程

考试内容:EBDP官方认证考试。

开班信息

暂无开班信息