基本信息 Information

Python数据分析、挖掘与可视化从入门到精通

丛书名

作者熊熙,张雪莲 编著

版次1

书号34769

ISBN9787301347690

字数494千字

开本

页数328

出版年2024

定价¥89

第1篇 基础入门篇第1章从零开始:初识数据分析与挖掘1.1什么是数据分析 31.1.1 与数据相关的概念 31.1.2 什么是大数据 31.1.3 数据分析工具 41.1.4 数据分析技术的发展 71.2什么是数据挖掘 81.2.1 数据挖掘相关概念 81.2.2 数据挖掘起源 91.2.3 数据挖掘要解决的问题 101.2.4 数据挖掘任务 101.3数据分析与挖掘的应用领域 111.4用Python进行数据分析与挖掘 121.4.1 Python语言概述 121.4.2 Python的优点 131.4.3 认识Python常用库 141.5本章小结 151.6思考与练习 15第2章Python数据分析基础2.1搭建Python开发环境 172.1.1 安装Python 172.1.2 安装PyCharm 182.1.3 安装Anaconda 192.1.4 安装与使用Jupyter 202.2Python基础 212.2.1 Python基础语法 212.2.2 Python基本数据类型 242.2.3 Python控制流与文件操作 312.2.4 Python函数与模块 392.2.5 Python面向对象程序设计 442.3本章小结 522.4思考与练习 52第3章Python数据分析相关库应用3.1NumPy 543.1.1 初识NumPy 543.1.2 创建数组 543.1.3 数组的基本操作 583.1.4 NumPy矩阵的基本操作 633.2SciPy 663.2.1 初识SciPy 663.2.2 统计子模块scipy.stats 663.2.3 优化子模块scipy.optimize 683.2.4 插值子模块scipy.interpolate 693.3Pandas 703.3.1 初识Pandas 703.3.2 Pandas的数据结构 703.3.3 Pandas对象的基本操作 733.3.4 基本统计分析 803.4Scikit-learn 823.4.1 初识Scikit-learn 823.4.2 线性回归模型 833.4.3 支持向量机 853.4.4 聚类 873.5其他常用模块 893.6本章小结 903.7思考与练习 91第2篇 数据分析篇第4章数据的预处理4.1数据获取 944.1.1 爬虫概述 944.1.2 爬虫常用库和框架 954.1.3 数据获取实践 1004.2文件与数据存储 1044.2.1 概述 1044.2.2 CSV文件 1054.2.3 JSON文件 1074.2.4 XLSL文件 1084.2.5 SQL数据库文件 1104.3数据清洗 1114.3.1 编码 1124.3.2 缺失值的检测与处理 1134.3.3 去除异常值 1164.3.4 去除重复值和冗余信息 1184.4本章小结 1204.5思考与练习 120第5章数据的分析方法5.1分布分析 1235.1.1 分布分析的概念 1235.1.2 分布分析的实现 1235.2对比分析 1285.2.1 对比分析的概念 1285.2.2 对比分析的比较标准 1295.2.3 对比分析的实现 1315.3统计量分析 1335.3.1 统计量分析的概念 1335.3.2 统计量分析的实现 1335.4相关性分析 1375.4.1 相关性分析的概念 1375.4.2 相关性分析的作用 1385.4.3 相关性分析的实现 1385.5帕累托分析 1415.5.1 帕累托分析的概念 1415.5.2 帕累托分析的实现 1425.6正态分布分析 1435.6.1 正态分布分析的概念 1445.6.2 正态分布分析的实现 1445.7本章小结 1505.8思考与练习 150第6章数据可视化工具的应用6.1数据可视化工具——Matplotlib 1536.1.1 安装Matplotlib模块 1536.1.2 绘制基础图形 1546.1.3 图形的设置 1636.1.4 绘制多个子图 1686.2数据可视化工具——Seaborn 1696.2.1 Seaborn库简介 1706.2.2 Seaborn常用统计图 1706.3本章小结 1736.4思考与练习 173第3篇 数据挖掘篇第7章数据挖掘之线性回归7.1线性回归概述 1777.2一元线性回归 1777.2.1 一元线性回归原理分析 1787.2.2 一元线性回归代码实现 1787.2.3 线性回归方法总结 1837.3多元线性回归 1837.3.1 多元线性回归原理分析 1837.3.2 多元线性回归代码实现 1847.4线性回归模型的评估与检验 1877.4.1 拟合优度检验(R2评估) 1877.4.2 显著性检验(F检验) 1887.4.3 回归参数显著性检验(T检验) 1947.5本章小结 1967.6思考与练习 196第8章数据挖掘之分类模型8.1逻辑回归模型 1998.1.1 逻辑回归模型的原理 1998.1.2 分类模型评估 2008.1.3 逻辑回归模型实现二分类 2068.2决策树和随机森林算法 2108.2.1 决策树的工作原理 2108.2.2 特征选择 2118.2.3 决策树的生成 2138.2.4 决策树的剪枝 2178.2.5 随机森林算法 2238.3KNN算法 2258.3.1 KNN算法的思想 2258.3.2 相似性的度量方法 2258.3.3 KNN算法的性能 2268.3.4 KNN算法的实现 2278.4本章小结 2308.5思考与练习 231第9章数据挖掘之关联分析9.1关联分析概述 2359.1.1 关联分析的基本概念 2359.1.2 常见的关联分析算法 2369.2Apriori关联分析算法 2379.2.1 Apriori算法原理 2379.2.2 Apriori算法挖掘频繁项集 2389.2.3 从频繁项集中挖掘关联规则 2389.2.4 基于Python实现Apriori算法 2399.2.5 Apriori算法总结 2439.3FP-growth关联分析算法 2449.3.1 构建FP树 2449.3.2 从一棵FP树中挖掘频繁项集 2469.3.3 FP-growth算法实例 2489.3.4 FP-growth算法总结 2529.4本章小结 2539.5思考与练习 253第10章数据挖掘之聚类分析10.1聚类分析概述 25510.1.1 聚类分析的概念 25510.1.2 聚类分析的方法 25510.1.3 聚类结果性能评估指标 25610.2质心聚类——K-Means算法 25710.2.1 K-Means算法的原理 25710.2.2 Python实现K-Means算法 26010.3密度聚类——DBSCAN算法 26310.3.1 DBSCAN算法的原理 26310.3.2 Python实现DBSCAN算法 26510.4层次聚类——AGNES算法 26710.4.1 AGNES算法的原理 26810.4.2 Python实现AGNES算法 26810.5本章小结 27010.6思考与练习 270第4篇 实战应用篇第11章实战案例:房价评估数据分析与挖掘11.1加载数据集 27411.2数据分析 27411.3数据可视化 27511.4数据预处理 27711.5拆分数据集 27911.6建立线性回归模型 28211.7建立决策树模型 29111.8对比分析构建的线性回归和决策树模型 29411.9本章小结 296第12章实战案例:电信客户流失数据分析与挖掘12.1案例背景 29812.2加载数据 29812.3数据准备 30012.4数据清洗 30112.4.1 缺失值处理 30112.4.2 重复值处理 30112.4.3 数值类型转换 30112.5数据处理 30412.6数据可视化 30512.7特征工程 31312.8数据建模 31812.9训练模型 31812.10 模型的评估 31912.11 本章小结 320

版权所有 © 北京大学出版社 北京大学音像出版社

京ICP备09072562号-1 京公网安备 11010802024978号 出版物经营许可证新出发京批字第版0160