书名

Python自然语言处理实战

Python自然语言处理实战封面

Python自然语言处理实战内容简介

自然语言处理是一门综合了语言学，计算机科学和数学的学科。它相对复杂并且学习门槛很高。但是，即使没有数学基础，本书也巧妙地避免了模糊的数学公式和证明。从零基础开始。《 Python自然语言处理实战》这本书着重于中文的自然语言处理。它使用Python及其相关框架作为工具，并且是面向战斗的。它详细说明了自然语言处理的各种核心技术，方法和经典算法。这三位作者在人工智能，大数据和算法领域有着丰富的积累和经验。他们是阿里巴巴，钱明略数据和奇牛云的高级专家。同时，该书也受到了阿里巴巴佛学院的高级算法专家和秦牛云AI实验室负责人等专家的好评和推荐。本书分为11章，从逻辑上分为2部分：第一部分（第1、2和11章）主要介绍基础知识，预技术，Python科学软件包，正则表达式和Solr搜索等。第二部分第一部分（第5-10章）第3〜5章介绍了与词法分析相关的技术，包括中文分词技术，词性标记和命名实体识别，关键字提取算法等。第6章介绍了句法分析技术。这部分有许多理论研究。在工程实践中使用的门槛相对较高，其效果主要取决于用于扩展规则的业务知识的组合，因此本书不做深入讨论。第7章介绍了常用的矢量化方法，这些方法通常用于输入各种NLP任务。第8章介绍了与情感分析有关的概念和场景，以及情感分析的一般过程。情绪分析在许多行业都有应用。第9章介绍了机器学习的重要概念，同时重点介绍了NLP中常用的分类算法和聚类算法，并介绍了几种情况。第10章介绍了NLP中常用的一些深度学习算法。这些方法比较复杂，但非常实用，需要读者耐心学习。

Python自然语言处理实战作者简介

涂铭：阿里巴巴数据架构师，对大数据、自然语言处理、Python、Java相关技术有深入的研究，积累了丰富的实践经验。曾就职于北京明略数据，是大数据方面的高级咨询顾问。在工业领域参与了设备故障诊断项目，在零售行业参与了精准营销项目。在自然语言处理方面，担任导购机器人项目的架构师，主导开发机器人的语义理解、短文本相似度匹配、上下文理解，以及通过自然语言检索产品库，在项目中构建了NoSQL+文本检索等大数据架构，也同时负责问答对的整理和商品属性的提取，带领NLP团队构建语义解析层。刘祥：百炼智能自然语言处理专家，主要研究知识图谱、NLG等前沿技术，参与机器自动写作产品的研发与设计。曾在明略数据担当数据技术合伙人兼数据科学家，负责工业、金融等业务领域的数据挖掘工作，在这些领域构建了诸如故障诊断、关联账户分析、新闻推荐、商品推荐等模型。酷爱新技术，活跃于开源社区，是Spark MLlib和Zeppelin的Contributor。刘树春：七牛云高级算法专家，七牛AI实验室NLP&OCR方向负责人，主要负责七牛NLP以及OCR相关项目的研究与落地。在七牛人工智能实验室期间，参与大量NLP相关项目，例如知识图谱、问答系统、文本摘要、语音相关系统等；同时重点关注NLP与CV的交叉研究领域，主要有视觉问答（VQA），图像标注（Image Caption）等前沿问题。曾在Intel DCSG数据与云计算部门从事机器学习与云平台的融合开发，项目获得IDF大奖。硕士就读于华东师范大学机器学习实验室，在校期间主攻机器学习，机器视觉，图像处理，并在相关国际会议发表多篇SCI/EI论文。

Python自然语言处理实战目录

序一
序二
前言
第1章 NLP基础 1
1.1 什么是NLP 1
1.1.1 NLP的概念 1
1.1.2 NLP的研究任务 3
1.2 NLP的发展历程 5
1.3 NLP相关知识的构成 7
1.3.1 基本术语 7
1.3.2 知识结构 9
1.4 语料库 10
1.5 探讨NLP的几个层面 11
1.6 NLP与人工智能 13
1.7 本章小结 15
第2章 NLP前置技术解析 16
2.1 搭建Python开发环境 16
2.1.1 Python的科学计算发行版——Anaconda 17
2.1.2 Anaconda的下载与安装 19
2.2 正则表达式在NLP的基本应用 21
2.2.1 匹配字符串 22
2.2.2 使用转义符 26
2.2.3 抽取文本中的数字 26
2.3 Numpy使用详解 27
2.3.1 创建数组 28
2.3.2 获取Numpy中数组的维度 30
2.3.3 获取本地数据 31
2.3.4 正确读取数据 32
2.3.5 Numpy数组索引 32
2.3.6 切片 33
2.3.7 数组比较 33
2.3.8 替代值 34
2.3.9 数据类型转换 36
2.3.10 Numpy的统计计算方法 36
2.4 本章小结 37
第3章中文分词技术 38
3.1 中文分词简介 38
3.2 规则分词 39
3.2.1 正向最大匹配法 39
3.2.2 逆向最大匹配法 40
3.2.3 双向最大匹配法 41
3.3 统计分词 42
3.3.1 语言模型 43
3.3.2 HMM模型 44
3.3.3 其他统计分词算法 52
3.4 混合分词 52
3.5 中文分词工具——Jieba 53
3.5.1 Jieba的三种分词模式 54
3.5.2 实战之高频词提取 55
3.6 本章小结 58
第4章词性标注与命名实体识别 59
4.1 词性标注 59
4.1.1 词性标注简介 59
4.1.2 词性标注规范 60
4.1.3 Jieba分词中的词性标注 61
4.2 命名实体识别 63
4.2.1 命名实体识别简介 63
4.2.2 基于条件随机场的命名实体识别 65
4.2.3 实战一：日期识别 69
4.2.4 实战二：地名识别 75
4.3 总结 84
第5章关键词提取算法 85
5.1 关键词提取技术概述 85
5.2 关键词提取算法TF/IDF算法 86
5.3 TextRank算法 88
5.4 LSA/LSI/LDA算法 91
5.4.1 LSA/LSI算法 93
5.4.2 LDA算法 94
5.5 实战提取文本关键词 95
5.6 本章小结 105
第6章句法分析 106
6.1 句法分析概述 106
6.2 句法分析的数据集与评测方法 107
6.2.1 句法分析的数据集 108
6.2.2 句法分析的评测方法 109
6.3 句法分析的常用方法 109
6.3.1 基于PCFG的句法分析 110
6.3.2 基于最大间隔马尔可夫网络的句法分析 112
6.3.3 基于CRF的句法分析 113
6.3.4 基于移进–归约的句法分析模型 113
6.4 使用Stanford Parser的PCFG算法进行句法分析 115
6.4.1 Stanford Parser 115
6.4.2 基于PCFG的中文句法分析实战 116
6.5 本章小结 119
第7章文本向量化 120
7.1 文本向量化概述 120
7.2 向量化算法word2vec 121
7.2.1 神经网络语言模型 122
7.2.2 C&W模型 124
7.2.3 CBOW模型和Skip-gram模型 125
7.3 向量化算法doc2vec/str2vec 127
7.4 案例：将网页文本向量化 129
7.4.1 词向量的训练 129
7.4.2 段落向量的训练 133
7.4.3 利用word2vec和doc2vec计算网页相似度 134
7.5 本章小结 139
第8章情感分析技术 140
8.1 情感分析的应用 141
8.2 情感分析的基本方法 142
8.2.1 词法分析 143
8.2.2 机器学习方法 144
8.2.3 混合分析 144
8.3 实战电影评论情感分析 145
8.3.1 卷积神经网络 146
8.3.2 循环神经网络 147
8.3.3 长短时记忆网络 148
8.3.4 载入数据 150
8.3.5 辅助函数 154
8.3.6 模型设置 155
8.3.7 调参配置 158
8.3.8 训练过程 159
8.4 本章小结 159
第9章 NLP中用到的机器学习算法 160
9.1 简介 160
9.1.1 机器学习训练的要素 161
9.1.2 机器学习的组成部分 162
9.2 几种常用的机器学习方法 166
9.2.1 文本分类 166
9.2.2 特征提取 168
9.2.3 标注 169
9.2.4 搜索与排序 170
9.2.5 推荐系统 170
9.2.6 序列学习 172
9.3 分类器方法 173
9.3.1 朴素贝叶斯Naive Bayesian 173
9.3.2 逻辑回归 174
9.3.3 支持向量机 175
9.4 无监督学习的文本聚类 177
9.5 文本分类实战：中文垃圾邮件分类 180
9.5.1 实现代码 180
9.5.2 评价指标 187
9.6 文本聚类实战：用K-means对豆瓣读书数据聚类 190
9.7 本章小结 194
第10章基于深度学习的NLP算法 195
10.1 深度学习概述 195
10.1.1 神经元模型 196
10.1.2 激活函数 197
10.1.3 感知机与多层网络 198
10.2 神经网络模型 201
10.3 多输出层模型 203
10.4 反向传播算法 204
10.5 最优化算法 208
10.5.1 梯度下降 208
10.5.2 随机梯度下降 209
10.5.3 批量梯度下降 210
10.6 丢弃法 211
10.7 激活函数 211
10.7.1 tanh函数 212
10.7.2 ReLU函数 212
10.8 实现BP算法 213
10.9 词嵌入算法 216
10.9.1 词向量 217
10.9.2 word2vec简介 217
10.9.3 词向量模型 220
10.9.4 CBOW和Skip-gram模型 222
10.10 训练词向量实践 224
10.11 朴素Vanilla-RNN 227
10.12 LSTM网络 230
10.12.1 LSTM基本结构 230
10.12.2 其他LSTM变种形式 234
10.13 Attention机制 236
10.13.1 文本翻译 237
10.13.2 图说模型 237
10.13.3 语音识别 239
10.13.4 文本摘要 239
10.14 Seq2Seq模型 240
10.15 图说模型 242
10.16 深度学习平台 244
10.16.1 Tensorflow 245
10.16.2 Mxnet 246
10.16.3 PyTorch 246
10.16.4 Caffe 247
10.16.5 Theano 247
10.17 实战Seq2Seq问答机器人 248
10.18 本章小结 254
第11章 Solr搜索引擎 256
11.1 全文检索的原理 257
11.2 Solr简介与部署 258
11.3 Solr后台管理描述 263
11.4 配置schema 267
11.5 Solr管理索引库 270
11.5.1 创建索引 270
11.5.2 查询索引 276
11.5.3 删除文档 279
11.6 本章小结 281

Python自然语言处理实战下载地址

Python自然语言处理实战PDF下载，Python自然语言处理实战电子书免费下载

https://pan.baidu.com/s/1TKgnovavPZOFg_c5LQm8gA

关注下方公众号【程序员李木子】，发送【12470】获取网盘密码

蓝奏云

如果链接失效，备用地址请到公众号【程序员李木子】，发送【12470】获取

更多书籍

Python数据分析实战