您的浏览器不支持JavaScript,请开启后继续
人工智能开发丛书--Scikit-learn机器学习详解(上)

人工智能开发丛书--Scikit-learn机器学习详解(上)

  • 作者
  • 潘风文、潘启儒 著

本书主要内容包括机器学习介绍,NumPy、Pandas、SciPy库、Matplotlib(可视化)四个基础模块,Scikit-learn算法、模型、拟合、过拟合、欠拟合、模型性能度量指标、数据标准化、非线性转换、离散化,以及特征抽取和降维的各种方法,包括特征哈希、文本特征抽取、特征聚合等。全书通过实用范例和图解形式讲解,选材典型,案例丰富,适合从事大数据、数据挖掘、机器学习...


  • ¥99.00

丛书名: 人工智能开发丛书

ISBN: 978-7-122-37849-1

版次: 1

出版时间: 2021-01-01

图书介绍

ISBN:978-7-122-37849-1

语种:汉文

开本:16

出版时间:2021-01-01

装帧:平

页数:348

编辑推荐

这本书全面透彻讲解Scikit-learn的来龙去脉,读完本书,便可彻底搞通Scikit-learn方方面面的知识。 语言通俗易懂,轻松易学 讲解主干明确,脉络清晰 案例精心挑选,实用性强

图书前言

Scikit-learn是基于Python的开源免费机器学习库,起源于发起人David Cournapeau在2007年参加谷歌编程之夏GSoC(Google Summer of Code)的一个项目,目前已经成为最受欢迎的机器学习库之一。
笔者将通过上、下两册把这个内容丰富、功能强大的机器学习框架进行系统条理的讲解,帮助有志于从事人工智能,特别是机器学习的开发者快速掌握Scikit-learn,并有效应用于工作中。本书是上册,首先简要介绍了机器学习的基础知识以及学习Scikit-learn的预备知识,然后重点讲解学习和掌握Scikit-learn的基础知识和基本功能,包括数据变换、特征抽取和降维技术等功能,这些都是高效应用Scikit-learn的必备知识。下册将以Scikit-learn提供的算法和模型为基础,讲解各种算法的原理、实现技术和应用案例,使读者在高效应用Scikit-learn技术方面更上一层楼。
第1章:介绍了机器学习的概念,并概述了机器学习与人工智能、机器学习与大数据以及机器学习与数据挖掘的关系。作为人工智能的一个子集,机器学习目前已经在各个领域开花结果,默默地影响着我们的日常生活。
第2章:介绍了Scikit-learn的预备知识,主要包括四个基础模块:NumPy、Pandas、SciPy库和Matplotlib,由于它们功能丰富、便于使用,目前已经广泛应用于数学、科学和工程领域,成为最受欢迎的Python扩展工具包。
第3章:学习掌握Scikit-learn的基础应用,在机器学习的基础上介绍了弄懂Scikit-learn首先需要掌握的最为常见的、全局性的先验知识,为方便实训演练,提供了模型训练和预测的例子。
第4章:介绍了Scikit-learn数据变换相关知识,包括评估器(estimator)、转换器(transformer)和管道(pipeline)等常用的概念,它们均属于数据预处理的范畴。其中转换器(transformer)可以实现数据预处理、缺失值处理、降维等各种数据变换功能。
第5章:介绍了Scikit-learn特征抽取和特征降维相关知识,它们都是数据预处理的一部分。特征抽取是指从原始数据中抽取特定特征变量的过程;特征降维不仅能够在不丢弃任何数据样本的情况下提高模型构建的效率,减少模型的规模,同时还能增强模型预测的效果。
附录:包含精选的Scikit-learn实用拓展学习资源,包括互操作和框架增强包、评估器和任务扩展包、推荐引擎扩展包等非常实用的资源。每个扩展包包含了概要描述和网址链接,便于读者访问。
本书特点
■ 内容由浅入深,循序渐进
本书从机器学习的起源和概念讲起,在引出了机器学习的标准开发步骤之后,讲述了Scikit-learn的外围预备知识(包括NumPy、Pandas、SciPy等)和基础知识,并逐步讲解了Scikit-learn的数据变换、特征抽取和降维功能,这是进行机器学习算法训练、模型应用的基本知识。一方面遵循初学者对机器学习的认知规律,另一方面也便于熟悉机器学习基本知识的学习者有选择地阅读。
■ 语言通俗易懂,轻松易学
讲解时尽量用通俗易懂的语言,配以足量图片和代码,形象化地把抽象内容呈现给读者,使读者很快理解、掌握每个章节的内容,有效降低学习的门槛。内容虽多,但不枯燥,轻松易学。
■ 讲解主干明确,脉络清晰
贯彻机器学习算法训练和应用这一主题。上册内容主要在于构建实际模型之前的工作,即数据预处理和特征抽取等知识,这是进行算法训练和模型应用不可或缺的流程环节,是后续内容的必要铺垫。内容一环接着一环,主干脉络清晰。
■ 案例精心挑选,实用性强
如何实现数据的标准化和规范化?对于缺失值如何处理?特征哈希如何实现?通过典型案例,读者可以轻松地处理这些在构建机器学习模型时必须面对的问题,有效地应用于后续的模型训练和实践应用中。
本书主要是面向有志于从事机器学习开发以及对人工智能领域感兴趣的读者而编写的,包括但不限于如下人员:
(1)具备一定Python基础知识,希望在机器学习领域进阶升级的开发人员;
(2)想要了解和实践Scikit-learn学习包的开发工程师;
(3)有志于从事大数据及人工智能的分析人员;
(4)对大数据和人工智能领域感兴趣的相关读者。
本书例子运行的Python版本号是Ver3.8.1。所有实例都可以通过化学工业出版社网站下载,也可以通过QQ:420165499联系在线下载实例包。读者在阅读和使用过程中,如有任何问题,可通过QQ在线咨询,笔者将竭诚为您服务。

著者 
2020年8月

作者简介

潘风文,博士,从事大数据、人工智能领域的研究和实践二十多年,成功主持过多项大型数据仓库及商业智能BI项目,包括电商平台用户画像智能系统,Themis企业征信尽调平台智能系统,武汉农商行数据仓库DW系统,金融界大型网站数据分析系统,CGoGo手机搜索引擎,陕西移动BI智能分析系统,中国电信移动支付系统等,主持过数据挖掘人工智能领域多项国家科研项目。

精彩书摘

本书主要内容包括机器学习介绍,NumPy、Pandas、SciPy库、Matplotlib(可视化)四个基础模块,Scikit-learn算法、模型、拟合、过拟合、欠拟合、模型性能度量指标、数据标准化、非线性转换、离散化,以及特征抽取和降维的各种方法,包括特征哈希、文本特征抽取、特征聚合等。全书通过实用范例和图解形式讲解,选材典型,案例丰富,适合从事大数据、数据挖掘、机器学习等人工智能领域开发的各类人员。

目录

1 机器学习	1
1.1 机器学习和人工智能	2
1.2 机器学习和大数据	4
1.3 机器学习和数据挖掘	6
1.4 机器学习分类和应用	7
1.5 机器学习开发步骤	10
1.5.1 数据挖掘标准流程	10
1.5.2 机器学习开发步骤	15
本章小结	18

2 Scikit-learn预备知识	20
2.1 NumPy	21
2.1.1 NumPy数组概念	23
2.1.2 NumPy数据类型	24
2.1.3 NumPy数组创建	26
2.1.4 NumPy数组操作	37
2.1.5 NumPy随机数	51
2.1.6 NumPy输入输出	57
2.1.7 NumPy矩阵	58
2.1.8 NumPy线性代数	59
2.1.9 NumPy常数	63
2.2 Pandas	63
2.2.1 Pandas数据结构	64
2.2.2 Pandas顶层函数	114
2.2.3 Pandas应用举例	115
2.3 SciPy库	122
2.3.1 SciPy库基础知识	123
2.3.2 稀疏矩阵及其处理	124
2.3.3 SciPy库应用举例	138
2.4 Matplotlib	144
2.4.1 Matplotlib基础知识	145
2.4.2 Matplotlib应用举例	149
本章小结	161

3 Scikit-learn基础应用	163
3.1 机器学习的算法和模型	164
3.1.1 特征变量和目标变量	165
3.1.2 算法训练	166
3.1.3 过拟合和欠拟合	174
3.1.4 模型性能度量	175
3.2 模型选择	180
3.3 Scikit-learn的功能模块	180
3.4 Scikit-learn 应用	182
3.4.1 安装Scikit-learn	182
3.4.2 数据导入	183
3.4.3 模型持久化	185
3.4.4 文本数据处理	186
3.4.5 随机状态控制	187
3.4.6 分类型变量处理	187
3.4.7 Pandas数据框处理	188
3.4.8 输入输出约定	188
3.5 应用实例	191
本章小结	193

4 Scikit-learn数据变换	195
4.1 概念介绍	196
4.1.1 评估器(estimator)	196
4.1.2 转换器(transformer)	197
4.1.3 管道(pipeline)	198
4.2 数据预处理	199
4.2.1 数据标准化	201
4.2.2 数据非线性转换	223
4.2.3 数据归一化	232
4.2.4 分类型特征变量编码	237
4.2.5 数据离散化	245
4.2.6 特征组合	251
4.3 缺失值处理	254
4.3.1 单变量插补	255
4.3.2 多变量插补	258
4.3.3 最近邻插补	262
4.3.4 标记插补缺失值	264
4.4 目标变量预处理	268
4.4.1 多类别分类标签二值化	268
4.4.2 多标签分类标签二值化	273
4.4.3 目标变量标签编码	276
本章小结	279

5 Scikit-learn特征抽取和降维	281
5.1 特征抽取	282
5.1.1 字典列表对象向量化	283
5.1.2 特征哈希	286
5.1.3 文本特征抽取	291
5.1.4 图像特征抽取	316
5.2 特征降维	320
5.2.1 主成分分析	321
5.2.2 特征聚合	326
5.2.3 随机投影	330
本章小结	340

附录	342
1. 互操作和框架增强包	343
2. 评估器和任务扩展包	344
3. 统计知识扩展包	347
4. 推荐引擎扩展包	347
5. 特定领域的扩展包	347

发送电子邮件联系我们