前言
党的二十大报告指出: 教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第一动力,深入实施科教兴国战略、人才强国战略、创新驱动发展战略。高等教育与经济社会发展紧密相连,对促进就业创业、助力经济社会发展、增进人民福祉具有重要意义。
大数据时代的浪潮正以磅礴之势席卷全球,从互联网、物联网、人工智能到金融、教育、医疗等领域,大数据技术的应用无处不在,为各行各业带来了前所未有的变革。大数据技术展现出巨大的应用价值与发展潜力,深刻地改变着人们的生活和工作方式。大数据技术近年发展尤其迅猛,从无处不在的人脸识别到颠覆性的自动驾驶技术,从机器翻译到GPT?4、文心一言、DeepSeek,与人工智能相结合的应用前景令人振奋。
在这种背景下,各行各业对大数据专业人才的需求呈井喷之势。无论是企业优化运营策略、增强市场竞争力,还是科研机构挖掘数据价值、攻克前沿难题,都亟须大量精通大数据分析与处理的专业人才。本书由此应运而生,旨在为读者搭建通往大数据处理技术核心领域知识的桥梁,为从事人工智能、大数据相关研究奠定理论基础。
作者结合多年的大数据实际教学经验,在查阅大量文献的基础上,精心构建一套知识体系完整的大数据分析与处理教材,从基础理论到前沿技术,从经典算法到实际应用,全方位覆盖数据收集、结构化处理、算法模型、综合应用等内容,帮助读者建立大数据处理知识体系。本书充分考量读者的认知规律,遵循由浅入深、循序渐进的原则,以润物细无声的方式将价值塑造、知识传授和能力培养相结合。一方面,对理论知识进行深入、严谨的阐释,帮助读者透彻理解大数据技术背后的原理与逻辑,夯实知识根基;另一方面,高度重视实践应用,精心设计丰富多样的案例与上机实践环节,引导读者将所学理论知识转换为实际动手能力,使其熟练掌握各类主流大数据工具与框架并从容应对复杂数据难题。
为便于教学,本书提供丰富的配套资源,包括教学课件、教学大纲、电子教案、程序源码、习题答案、在线作业和微课视频。
资源下载提示
课件资源: 扫描目录上方的二维码获取下载方式。
在线作业: 扫描封底的作业系统二维码,登录网站在线做题及查看答案。
微课视频: 扫描封底的文泉云盘防盗码,再扫描书中相应章节的视频讲解二维码,可以在线学习。
本书作者为黄敏、陈锐、张世征、郭延哺,其中,郭延哺编写第2章和第3章。此外,代卓、董景阳参与了部分章节的校对和修改工作。
在本书的编写过程中,得到了郑州轻工业大学和清华大学出版社的大力支持,参阅了大量相关论文、教材、专著及网络资源,在此一并表示衷心的感谢。本书为河南省研究生精品教材,受到河南省研究生教育改革与质量提升工程项目(项目批准号: YJS2024JC12,YJS2026XSKC18,YJS2023ZX08,YJS2025AL39)、河南省高等教育教学改革研究与实践项目(研究生教育类)(项目批准号: 2023SJGLX159Y,2023SJGLX369Y)及河南省科技攻关项目(项目编号: 252102211070)等项目的支持。
由于作者水平有限,加之时间仓促,书中难免存在一些不足之处,恳请读者批评指正。
作者
2026年1月
目录
资源下载
第1章大数据处理概述1
1.1什么是大数据2
1.1.1大数据的定义2
1.1.2大数据的特点2
1.1.3大数据、数据挖掘与机器学习4
1.2大数据的发展5
1.2.1萌芽期5
1.2.2发展期6
1.2.3爆发期6
1.2.4大规模应用期7
1.3大数据的处理流程9
1.3.1数据采集10
1.3.2数据存储10
1.3.3数据清洗11
1.3.4数据分析与可视化12
1.4大数据分析与处理的方法12
1.4.1数学与统计学13
1.4.2机器学习13
1.4.3数据存储与挖掘16
1.4.4自然语言处理18
1.5大数据应用场景19
小结19
习题19
第2章数据的获取与提取21
2.1Web页面数据获取22
2.1.1网络爬虫技术简介22大数据处理方法与技术(微课视频版)目录2.1.2网络爬虫的工作原理25
2.1.3爬虫类型26
2.1.4爬虫的内核技术28
2.1.5主题爬虫技术36
2.1.6反爬虫技术41
2.1.7网络爬虫技术的展望43
2.2大数据的提取技术44
2.2.1Web页面内容提取技术44
2.2.2基于统计的Web信息抽取方法51
2.2.3互联网大数据提取的挑战和前沿应用56
小结58
习题58
第3章数据探索与预处理59
3.1数据属性类型60
3.1.1数据属性60
3.1.2数据属性的特征分析61
3.1.3数据属性的转换与编码62
3.2数据统计描述64
3.2.1数据集中趋势度量64
3.2.2数据离散程度的度量65
3.2.3数据相关性分析66
3.3数据的相似性度量67
3.3.1基于距离的相似性度量68
3.3.2基于向量夹角的相似性度量69
3.3.3基于概率和信息论的相似性度量70
3.4数据清洗71
3.4.1缺失值处理方法71
3.4.2噪声数据处理72
3.4.3异常值处理73
3.5数据规范化和编码75
3.5.1数据规范化75
3.5.2数据编码77
3.6数据归约78
3.6.1数据立方体聚集78
3.6.2维归约80
3.6.3数据压缩81
3.6.4数值归约83
3.6.5数据离散化和概念分层84
小结89
习题89
第4章大数据的结构化处理与分析技术90
4.1大数据的文本信息特征91
4.2中文分词92
4.2.1基于词典的分词92
4.2.2基于统计的分词方法95
4.2.3基于深度学习的分词方法101
4.2.4分词歧义消解102
4.2.5新词识别与停用词处理104
4.2.6目前的分词系统与语料库105
4.3命名实体识别技术106
4.3.1命名实体识别简介106
4.3.2基于规则的命名实体识别106
4.3.3基于隐马尔可夫模型的命名实体识别107
4.3.4基于条件随机场的命名实体识别110
4.4向量空间表示112
4.4.1词袋模型112
4.4.2向量空间模型113
4.4.3概率模型114
4.4.4独热编码114
4.4.5词嵌入114
4.5矩阵分解与主题建模117
4.5.1SVD117
4.5.2非负矩阵分解120
4.5.3概率潜在语义分析120
4.5.4LDA122
4.6文本信息抽取与信息检索123
4.6.1关系抽取123
4.6.2事件抽取124
4.6.3信息检索125
小结127
习题128
第5章关联规则挖掘130
5.1基本概念131
5.1.1项集131
5.1.2关联规则131
5.1.3支持度132
5.1.4置信度132
5.1.5提升度132
5.1.6频繁项集133
5.2Apriori算法135
5.2.1Apriori算法思想135
5.2.2Apriori算法应用举例137
5.3FP?growth算法139
5.3.1构建FP树139
5.3.2挖掘FP树144
5.4关联规则评价146
5.4.1支持度?置信度的缺陷146
5.4.2扩充评价方法147
5.4.3电影数据集的关联规则挖掘实例150
小结152
习题152
第6章聚类153
6.1聚类算法简介154
6.1.1聚类算法分类154
6.1.2距离度量方法155
6.2K?means聚类156
6.2.1K?means聚类算法思想156
6.2.2通过调用库函数实现聚类163
6.3基于密度的聚类——DBSCAN聚类166
6.3.1DBSCAN算法原理及相关概念167
6.3.2DBSCAN聚类算法167
6.4基于层次的聚类——AGNES聚类171
6.4.1AGNES聚类算法思想171
6.4.2AGNES算法实现172
6.5高斯混合聚类175
6.5.1概率密度函数175
6.5.2高斯混合聚类算法推导过程176
6.5.3高斯混合聚类算法思想177
6.5.4高斯混合聚类应用举例178
6.6各种聚类算法的比较182
小结183
习题184
第7章回归分析186
7.1回归分析概述187
7.2线性回归188
7.2.1单变量线性回归188
7.2.2多变量回归分析195
7.2.3多项式回归分析200
7.3逻辑回归202
7.3.1sigmoid函数与逻辑回归模型202
7.3.2梯度下降与推导过程203
7.3.3参数学习向量化205
7.3.4逻辑回归的Python实现──乳腺良性与恶性肿瘤的预测206
小结213
习题214
第8章分类217
8.1k近邻算法218
8.1.1k近邻算法原理218
8.1.2k近邻算法应用——鸢尾花的分类218
8.1.3非参数估计223
8.2贝叶斯分类器234
8.2.1贝叶斯定理相关理论234
8.2.2朴素贝叶斯分类器原理与设计239
8.2.3朴素贝叶斯分类算法实现──鲈鱼和三文鱼的分类系统244
8.2.4正态贝叶斯分类器252
8.2.5贝叶斯网络253
8.3决策树257
8.3.1决策树相关概念257
8.3.2决策树构造过程258
8.3.3决策树学习算法思想及实现261
8.3.4决策树算法实现——泰坦尼克号幸存者预测264
8.4SVM269
8.4.1线性可分与感知机271
8.4.2间隔最大化及线性SVM274
8.4.3线性SVM算法实现278
8.4.4非线性SVM与核函数280
8.4.5SVM回归288
8.4.6SVM算法实现——鸢尾花的分类289
小结293
习题294
第9章人工神经网络与深度学习298
9.1感知机与人工神经网络299
9.1.1感知机299
9.1.2人工神经网络模型301
9.2BP神经网络303
9.2.1BP神经算法模型参数学习过程303
9.2.2BP神经网络算法实现305
9.2.3BP神经网络算法实现——鸢尾花分类309
9.3深度学习316
9.3.1深度学习概述316
9.3.2卷积神经网络319
9.3.3循环神经网络327
小结334
习题335
第10章推荐算法337
10.1推荐系统简介338
10.1.1信息检索与推荐系统338
10.1.2推荐系统的发展历史338
10.1.3推荐系统的原理与分类340
10.1.4推荐系统的评估方法341
10.2基于最近邻的协同过滤推荐算法343
10.2.1基于近邻用户的协同过滤推荐343
10.2.2基于近邻项目的协同过滤推荐347
10.2.3算法实现350
10.3基于隐语义分析的推荐模型353
10.4基于标签的推荐算法358
小结359
习题359
第11章综合案例分析361
参考文献362