目 录 第1章 大数据概述11.1 大数据的背景11.1.1 互联网的四次浪潮21.1.2 大数据的变革思维21.2 大数据简介31.2.1 大数据的概念31.2.2 大数据的特征41.2.3 大数据的结构类型51.2.4 大数据的关键技术61.2.5 大数据的核心产业链71.3 大数据的发展和应用91.3.1 大数据的发展态势91.3.2 我国大数据发展面临的问题与挑战111.3.3 大数据的应用13小结14习题14第2章 大数据的采集和预处理162.1 大数据的采集162.1.1 大数据的采集来源172.1.2 大数据的采集方法182.1.3 大数据的采集平台202.2 大数据的预处理技术222.2.1 数据清洗222.2.2 数据集成232.2.3 数据变换242.2.4 数据归约242.3 数据仓库与ETL工具262.3.1 数据仓库的组成262.3.2 数据仓库的数据模型282.3.3 常用的ETL工具30小结33习题33第3章 大数据存储353.1 传统存储363.1.1 硬盘363.1.2 直连式存储373.1.3 网络存储393.2 分布式存储423.2.1 存储结构423.2.2 系统架构433.2.3 典型系统443.3 云存储463.3.1 云存储的结构模型463.3.2 云存储的分类473.3.3 云存储的优势和劣势483.3.4 云存储的发展趋势49小结51习题51第4章 大数据处理与计算534.1 Hadoop处理框架544.1.1 HDFS544.1.2 MapReduce554.1.3 YARN584.1.4 ZooKeeper604.2 Spark处理框架624.2.1 Scala624.2.2 Spark SQL644.2.3 Spark Streaming664.3 Storm开源流计算框架674.3.1 Storm的基本概念674.3.2 Spout和Bolt694.3.3 Topology69小结71习题71第5章 大数据分析735.1 大数据分析的类型735.1.1 描述性分析745.1.2 探索性分析755.1.3 验证性分析755.2 大数据分析的方法765.2.1 回归分析765.2.2 关联分析775.2.3 分类825.2.4 聚类845.3 大数据分析的工具875.3.1 Excel875.3.2 R885.3.3 RapidMiner895.3.4 KNIME905.3.5 Weka91小结93习题94第6章 大数据可视化966.1 大数据可视化概述976.1.1 大数据可视化的概念976.1.2 可视化的起源976.1.3 大数据可视化的作用986.2 大数据可视化的技术996.2.1 基于图形的可视化技术996.2.2 基于平行坐标法的可视化技术1066.2.3 其他大数据可视化技术1076.3 大数据可视化的工具1076.3.1 入门级工具1076.3.2 信息图表工具1086.3.3 地图工具1086.3.4 时间线工具1086.3.5 高级分析工具1096.4 大数据可视化的发展1096.4.1 大数据可视化面临的挑战1096.4.2 大数据可视化的发展方向1106.4.3 大数据可视化未来的应用111小结112习题113第7章 大数据应用1157.1 大数据在金融领域的应用1157.1.1 大数据与客户管理1167.1.2 大数据与风险管控1197.1.3 大数据与运营优化1217.2 大数据在互联网领域的应用1227.2.1 大数据与电子商务1227.2.2 大数据与社交媒体1267.2.3 大数据与零售行业1287.3 大数据在生物医学领域的应用1297.3.1 大数据与流行病预测1297.3.2 大数据与智慧医疗1327.3.3 大数据与生物信息学1347.4 大数据在其他领域的应用1357.4.1 大数据与智慧物流1367.4.2 大数据与汽车行业1377.4.3 大数据与公共管理1417.4.4 大数据与教育行业145小结147习题148第8章 大数据隐私与安全1508.1 大数据面临的隐私与安全问题1518.1.1 大数据隐私与安全的定义1518.1.2 影响大数据隐私与安全的主要因素1528.1.3 大数据隐私与安全问题的分类1538.2 大数据隐私与安全的防护策略1568.2.1 存储安全策略1578.2.2 应用安全策略1588.2.3 管理安全策略1598.3 大数据隐私与安全的防护技术162 8.3.1 数据采集与存储安全技术1628.3.2 数据挖掘安全技术1668.3.3 数据发布安全技术1678.3.4 防范APT技术168小结172习题173参考文献175
第2版前言时光荏苒,自本书第1版问世以来,已五年有余。在这五年间,大数据领域发生了很多翻天覆地的变化,对数据的存储、处理与分析呈现,不再只是数据科研工作者和IT行业从业人员关心的问题,而是深入扎根在了产业革新、社会发展、国家治理的方方面面。我们亲眼见证了大数据技术的不断创新与突破,它已经从一种辅助性的工具逐渐成长为推动各行各业发展的核心驱动力。随着大数据技术的发展,国家对大数据产业的布局,从政策、产业实施到教育层面,都逐渐清晰化、完整化。为满足国家经济社会发展的特殊需求,2016年与2017年,教育部在本科阶段分别新增了“数据科学与大数据技术”与“大数据管理与应用”两个特设专业,根植工学门类和管理学门类,为社会培养具备大数据思维方式和能力的人才。2021年11月15日,工业和信息化部印发《“十四五”大数据产业发展规划》以来,各项举措有条不紊地实施,在数据思维、技术理论、市场健全和安全保障方面,都有了长足的进展。党的二十大报告中也指出,加快发展数字经济、促进数字经济和实体经济深度融合。在此环境下,各个高校也积极寻求变革,这方面可从笔者所在的北京科技大学经济管理学院可见一斑,近年来学院积极在新工科、新文科方面寻求突破,建立大数据管理与应用新专业后,不但开设大量大数据基础、分析与应用相关课程,还在工商管理、会计等专业设立大数据平台课程,将大数据思维作为新时期学生应具备的基本素养之一。而且在多年的教学过程中,笔者也切实感受到学生对于建立体系化大数据基础知识的迫切需求。随着大数据技术的日益发展,我们体会到,由于大数据产业自身及其领域中的应用都有了很多新发展,原来的教材有些地方需要不断更新,以更好地满足广大读者的学习需求。因此,笔者决定对第1版教材进行修订。新版教材秉持与时俱进的原则,对大数据的基础知识进行了更新,加入了最新的行业应用和技术发展趋势。本书可供大数据相关专业的本科生、研究生及大数据研究工作者与从业者使用。大数据的相关内容既包括数据采集、存储、处理、分析、可视化、安全等方面的关键技术,同时也包括大数据产业知识、应用现状、隐私安全等需要从社会视角进行理解的话题。它们之间相互关联,共同勾勒出一幅大数据领域的整体架构。本书在系统梳理当前大数据概念、产业链和发展现状等基本问题后,就大数据设计的关键环节进行了逐一介绍,并结合产业前沿,讲述了大数据在金融、互联网、生物医学等领域的应用,以及大数据环境下的隐私和安全问题。与同类教材相比,本书具有以下特色。(1)兼顾文理背景。作为一本导论性质的教材,本书兼顾了理工科专业与商科、文科等其他专业本科生的知识背景特点,力求达到非大数据专业学生通过本书能学到足够体系化的基础知识,而大数据专业学生又能以本教材为抓手和路标,更高效地理解和学习更加深入的相关专业知识。 (2)基础和前沿并重。大数据技术的发展日新月异,但一些基本的思想是可以经受住时间的洗礼,不断指导大数据工作者创造新方法、新价值的。这些思想有些源自某些经典技术本身,有些则隐藏在技术的沿革过程中。因此,本书不仅重视对前沿技术的介绍,对于大数据发展历程中的里程碑技术,也依然保留了相当的篇幅。(3)鼓励学以致用。本书每章都有知识拓展或经典案例,介绍我国与大数据相关的机构、企业、软件、技术等内容。同时,本书配套了57个“互联网+”视频或图文资源,以二维码的形式嵌到对应的知识点,将各章节知识点与产业实践有机地结合起来,达到学以致用的目的。(4)重视教学便利。本书每章开篇都介绍了教学要点,总结了每个知识点的相关知识,并给出了“掌握”“熟悉”“了解”三个层次的学习建议。在每章末尾,本书还提供了小结、关键术语清单,方便师生有针对性地进行回顾复习。同时每章都配有习题,并附有参考答案,为师生提供了便捷的学习环境。本书由北京科技大学王道平、崔鸿飞和内蒙古财经大学葛根哈斯担任主编,负责设计全书结构、草拟写作提纲、组织编写工作和最后统稿,参加编写的人员还有郝玫、王婷婷、李明芳、周玉等。在编写过程中,编者参阅了大量的书籍和相关资料,在此对各位作者表示真诚的谢意。本书在出版的过程中,得到了北京科技大学和北京大学出版社的大力支持,在此一并表示衷心的感谢。由于编者的水平有限,书中难免存在疏漏之处,恳请广大读者批评斧正。编者 2024.9
本书既可以作为高等院校大数据、计算机科学与技术、软件工程及相关专业课程的教材,也可以供系统分析师、系统架构师、软件开发工程师、项目经理及对大数据技术感兴趣的读者阅读和参考。
王道平【主编】【现当代】————————————————————王道平,博士,教授,博士生导师,北京科技大学经济管理学院管理科学系,研究方向为供应链与物流管理、大数据技术与应用、智能管理系统等,主讲大数据概论、数据组织与分析技术、供应链与物流管理等课程,承担多项国家自然科学基金课题和省部级课题,主编出版《现代物流信息技术》、《现代物流管理》、《供应链管理》、《大数据导论》、《大数据处理》、《智能制造概论》等多部教材,其中1部教材被评为北京高校优质本科教材,2部教材被评为北京市高等教育精品教材。崔鸿飞【主编】【现当代】————————————————————崔鸿飞,女,2016年毕业于清华大学自动化系,并在清华大学计算机系从事博士后研究,2019年6月起就职于北京科技大学经济管理学院管理科学与工程系,研究方向为商业及医疗的大数据分析处理。参加了多项国家自然科学基金课题,在国际期刊上发表学术论文10余篇。葛根哈斯【主编】【现当代】————————————————————葛根哈斯,女,蒙古族,1988年出生,毕业于北京科技大学经济管理学院管理科学与工程专业,获博士学位,现为内蒙古财经大学统计学院讲师,主要研究方向为大数据分析,供应链与物流管理等。公开发表论文十余篇。
本书紧跟大数据技术的最新发展、重视基础知识体系,系统地介绍了大数据技术与应用的基本概念和思维方式,详细阐述了大数据的采集、存储、处理、分析和可视化等相关内容,并结合了最新的技术应用案例,讲述了大数据在金融、互联网、生物医学等领域的应用以及大数据环境下的隐私和安全问题。本书既可以作为高等院校大数据、计算机科学与技术、软件工程及相关专业课程的教材,也可以供系统分析师、系统架构师、软件开发工程师、项目经理及对大数据技术感兴趣的读者阅读和参考。