机器学习和文本分析培训

知识概要

序号

日期

课程内容

知识点

教学方式

1

第一天

上午

文本分析基础

文本分析基本概念和应用

数学基础

概率论基本概念

概率

最大似然估计

条件概率

贝叶斯法则

随机变量

二项式分布

联合概率分布和条件概率分布

贝叶斯决策理论

期望和方差

图灵机与文本分析

语料库与词汇知识库

理论授课

+讨论

下午

文本分析词法分析

 

概率语法

词法分析与词性标注

词频-逆向文件频率(TF-IDF)

Word2Vec

计数向量器

分词器(Tokenization)

移除停用词(StopWordsRemover)

n-gram

二值化

主成分分析(PCA)

多项式展开(PolynomialExpansion)

离散余弦变换(DCT)

字符串-索引变换(StringIndexer)

索引-字符串变换(IndexToString)

独热编码(OneHotEncoder)

向量-索引变换

交互式(Interaction)

正则化(Normalizer)

规范化(StandardScaler)

最大值-最小值缩放(MinMaxScaler)

最大值-绝对值缩放(MaxAbsScaler)

理论授课

+演示

+上机学习

2

第二天

上午

文本分析语法理论

语言模型

n元语法的基本概念

数据平滑方法

句法分析

句法结构分析概述

基于PCFG的基本分析方法

句法规则提取方法

HP分析算法

浅层句法分析

理论授课

+讨论

下午

文本分析语义分析

 

语义计算

词义消歧概述

有监督的词义消歧方法

基于贝叶斯分类器的消歧方法

基于贝叶斯分类器的消歧方法

基于词典的词义消歧方法

无监督的词义消歧方法

词义消歧系统评价

语义角色标注基本方法

双语联合语义角色标注方法

理论授课

+演示

+上机学习

3

第三天

上午

文本分析篇章分析

言语行为理论

中心理论

修辞结构理论

脉络理论

篇章表示理论

篇章衔接性,连续性

篇章标注语料库

理论授课

+讨论

下午

文本分析实战练习

 

Web文本分析

基于深度学习的中文自然语言处理

知识图谱-基于知识库的文本分析

文本分析python实践

理论授课

+演示

+上机学习

培训对象

需要了解文本分析NLP技术的相关人员

培训收益

通过文本分析核心原理精讲和文本核心处理技术工具的实操练习,可以掌握文本分析关键技术使用,便于把文本分析技术落地到自己的工作实践中。