本教材系统涵盖人工智能的基本知识与核心技术应用,通过四大知识模块构建从基础理论到实践应用的完整学习体系。模块1梳理人工智能的发展历程、理论基础与社会影响,帮助学生建立整体性认知,培养技术理解能力与伦理意识。模块2聚焦计算机视觉,解析图像数学表示、卷积神经网络(CNN)模型及生成式人工智能的基本原和实践应用。模块3深入自然语言处理,从文本表示演进到Transformer架构,结合GPT等预训练模型,通过情感分析、文本生成项目实践强化应用能力。模块4阐述语音技术,包括语音信号处理、深度学习模型及生成式人工智能语音合成,结合智能家居等场景剖析人工智能实用价值与挑战。本教材兼顾基本理论与前沿趋势,注重批判性思维培养,以"构建人工智能通识认知,衔接技术原理与实践应用”为核心目标,面向人工智能入门学习者,可作为高等院校人工智能通识课程的教材,也可供其他读者学习使用。
王克刚,安康学院电子与信息工程学院院长,陕西省高等学校教学名师,安康市有突出贡献专家。
目 录
模块1 人工智能:从技术演进到社会重塑的探索之旅
第1章 人工智能的发展历程与概念基础 4
1.1 人工智能的概念界定与基本特征 4
1.1.1 人工智能的概念界定 4
1.1.2 人工智能的基本特征 6
1.2 全球人工智能发展的关键里程碑 9
1.2.1 概念起源与学科确立(20世纪40年代—50年代) 9
1.2.2 早期发展与第一次人工智能热潮(20世纪50年代—60年代) 10
1.2.3 第一次人工智能寒冬(20世纪70年代—80年代初) 11
1.2.4 专家系统与第二次人工智能热潮(20世纪80年代) 12
1.2.5 第二次人工智能寒冬(20世纪80年代末—90年代初) 13
1.2.6 机器学习崛起与突破(20世纪90年代—21世纪) 13
1.2.7 深度学习革命与第三次AI热潮(2010年至今) 13
1.3 中国人工智能的发展历程 14
1.3.1 技术跟踪期(20世纪80年代—2010年) 14
1.3.2 快速发展期(2011—2016年) 15
1.3.3 战略引领期(2017年至今) 15
1.4 人工智能的理论学派 16
1.4.1 符号主义 16
1.4.2 联结主义 17
1.4.3 行为主义 19
1.4.4 三大学派的融合趋势 20
1.5 人工智能的技术体系 21
1.5.1 算法基础层 22
1.5.2 模型框架层 23
1.5.3 技术栈层 25
1.6 人工智能的形态与体系分类 27
1.6.1 按能力范围分类 27
1.6.2 按智能层级分类 28
1.6.3 按存在形态分类 29
第2章 人工智能的典型应用场景 31
2.1 感知智能应用:计算机视觉与智能语音 31
2.1.1 计算机视觉技术原理与应用 31
2.1.2 智能语音技术原理与应用 33
2.2 认知智能应用:自然语言处理与推荐系统 35
2.2.1 自然语言处理技术与应用 35
2.2.2 推荐系统技术与应用 37
2.3 决策智能应用:自动驾驶与AIGC 39
2.3.1 自动驾驶技术原理与应用 39
2.3.2 AIGC技术原理与应用 40
第3章 人工智能的未来发展趋势 44
3.1 技术突破方向:从量子人工智能到多模态大模型 44
3.1.1 量子人工智能 44
3.1.2 多模态大模型 45
3.1.3 小模型 47
3.2 应用拓展路径:从专用人工智能到通用人工智能 48
3.2.1 智能体 48
3.2.2 人工智能专家系统 50
3.2.3 人工智能与机器人融合 51
3.3 社会政策演进:从技术发展到生态构建 53
3.3.1 立法与监管完善 53
3.3.2 伦理与可持续发展受到重视 54
3.3.3 基础建设与生态、开源创新活跃 54
3.4 人工智能的挑战争议与规范路径 55
3.4.1 鲁棒性与可靠性挑战 55
3.4.2 可解释性与透明度挑战 56
3.4.3 数据质量与隐私挑战 57
3.5 伦理与社会争议:风险与反思 57
3.5.1 算法偏见与公平性争议 57
3.5.2 就业影响与劳动力转型 58
3.5.3 人机关系与人类主体性争议 59
3.6 规范与治理路径:从个体到系统 60
3.6.1 技术层面的规范路径 60
3.6.2 行业层面的自律与标准 61
3.6.3 政策与法律层面的监管框架 61
模块1习题 62
模块2 人工智能如何看懂世界:从计算机视觉到生成式人工智能的演进与应用
第4章 计算机视觉基础理论与应用 68
4.1 计算机视觉的定义与发展历程 68
4.2 核心应用领域与技术价值 69
4.3 典型应用案例深度剖析 75
4.3.1 医学影像辅助诊断系统 75
4.3.2 智能交通监控与管理系统 76
4.3.3 工业产品表面缺陷检测系统 77
4.3.4 智能病虫害监测系统 78
第5章 图像表示与处理技术基础 80
5.1 图像的数学表示方法 80
5.2 图像预处理关键技术 82
5.2.1 几何变换 83
5.2.2 图像增强 84
5.2.3 去噪 85
5.2.4 颜色空间转换 87
5.2.5 形态学操作 87
5.3 卷积神经网络(CNN)基本原理 88
5.3.1 CNN的数学原理 88
5.3.2 CNN的层级结构 91
5.3.3 经典CNN架构 91
5.3.4 三维卷积与转置卷积 93
5.4 经典CNN架构的网络结构 94
5.4.1 LeNet-5:CNN的奠基之作 94
5.4.2 AlexNet:深度学习革命的引爆点 94
5.4.3 Inception(GoogLeNet):多尺度特征融合 95
5.4.4 VGGNet:深度与简洁的典范 96
5.4.5 ResNet:深度残差学习 97
5.4.6 其他经典CNN架构 98
5.5 CNN训练过程与优化策略 99
5.5.1 数据准备与预处理 99
5.5.2 模型初始化 99
5.5.3 损失函数 100
5.5.4 优化器 101
5.5.5 前向传播 102
5.5.6 反向传播 102
5.5.7 参数更新 103
5.5.8 模型评估与测试 103
第6章 图像识别与目标检测技术 104
6.1 图像识别的技术路线与流程 104
6.1.1 传统图像识别技术路线 104
6.1.2 基于深度学习的图像识别技术路线 106
6.1.3 图像识别的基本流程 107
6.1.4 图像识别的关键技术挑战 107
6.2 目标检测主流算法与架构 108
6.2.1 两阶段检测器 108
6.2.2 单阶段检测器 109
6.2.3 基于Transformer的检测器 110
6.2.4 主流算法对比与选型 111
6.3 性能评估指标与优化策略 111
6.3.1 综合评价指标体系 112
6.3.2 模型层面优化策略 112
6.3.3 数据层面优化策略 112
6.3.4 工程化部署优化 113
6.3.5 系统级优化策略 113
第7章 生成式人工智能图像生成技术 114
7.1 生成对抗网络(GAN)的原理与架构 114
7.1.1 GAN的基本结构与工作原理 114
7.1.2 GAN的改进模型与技术突破 114
7.1.3 GAN的应用场景与局限性 115
7.2 扩散模型的原理与应用 116
7.2.1 扩散模型的基本原理 116
7.2.2 扩散模型的关键技术突破 116
7.2.3 扩散模型的应用场景 117
7.3 生成式人工智能的创新应用模式 118
7.3.1 多模态内容生成与创作 118
7.3.2 人机协同设计与创作 118
7.3.3 个性化与定制化服务 118
7.3.4 产业级应用与流程重构 119
7.4 计算机视觉技术的演进与未来展望 119
模块2习题 121
模块3 人工智能如何读懂世界:从自然语言处理到生成式人工智能的深度解析
第8章 自然语言处理技术的演进 126
8.1 自然语言处理的定义与研究范畴 126
8.2 自然语言处理的发展历程与技术突破 127
8.3 自然语言的应用场景与教育价值 128
第9章 文本表示与处理技术基础 131
9.1 文本的离散表示 131
9.2 文本的分布式表示:词向量 134
9.3 文本预处理的标准化流程 137
9.4 循环神经网络(RNN)的结构与原理 141
9.5 长短期记忆网络(LSTM)的门控机制 143
9.6 循环神经网络的变体与应用场景 146
第10章 Transformer架构开启序列建模新时代 149
10.1 Transformer架构的诞生背景与技术变革 149
10.2 Transformer的整体架构与自注意力机制 149
10.2.1 自注意力机制:信息关联的“智能雷达” 151
10.2.2 多头自注意力:多视角的“分组讨论” 152
10.2.3 位置编码:给词语“贴坐标牌” 153
10.3 Transformer编码器与解码器 153
10.4 Transformer架构的应用与影响 155
10.4.1 NLP领域:从理解到生成的全面突破 155
10.4.2 计算机视觉:从卷积到自注意力的跨越 155
10.4.3 多模态任务:跨领域的“语义桥梁” 156
10.4.4 其他领域:生物、语音与推荐系统 156
10.5 动手理解Transformer架构 157
10.5.1 简化模型实践:用代码感受核心流程 157
10.5.2 注意力可视化工具:直观“看见”关注重点 158
10.5.3 Transformer架构的挑战与未来:效率与创新 158
第11章 文本分类与情感分析:语言理解的实践 160
11.1 文本分类的完整技术流程 160
11.2 情感分析的核心技术与实现方法 163
11.3 文本分类模型的评估与优化 167
11.3.1 文本分类模型的评估 167
11.3.2 文本分类模型的优化 169
第12章 生成式人工智能与预训练模型:从理解到创作 172
12.1 预训练模型的范式革命:从BERT到GPT 172
12.2 生成式文本创作的技术原理 174
12.3 AIGC在内容创作中的应用实践 177
模块3习题 183
模块4 人工智能如何听懂世界:从语音识别到生成式人工智能语音合成
第13章 语音识别基础理论与技术演进 187
13.1 语音识别的定义与内涵 187
13.2 语音识别技术发展历程 188
13.2.1 早期探索阶段(20世纪50年代—80年代):孤立词识别的初步突破 188
13.2.2 统计模型阶段(20世纪80年代—21世纪10年代):GMM-HMM模型
的主导地位 189
13.2.3 深度学习阶段(2011年至今):端到端模型的革命性突破 189
13.3 语音识别核心技术框架 190
第14章 语音信号处理技术基础与深度学习技术应用 192
14.1 语音信号的基本特征 192
14.1.1 时域特征 192
14.1.2 频域特征 193
14.1.3 时频域特征 193
14.2 语音信号预处理关键技术 194
14.2.1 预加重 194
14.2.2 分帧 195
14.2.3 加窗 195
14.3 语音特征提取方法 196
14.4 面向语音处理的主流深度学习模型 197
14.5 模型训练与优化技术 198
14.5.1 数据准备与增强 198
14.5.2 损失函数设计 199
14.5.3 优化算法与训练策略 199
14.5.4 模型压缩与优化 199
14.6 典型应用场景 200
第15章 语音合成技术基本原理与生成式人工智能语音合成 202
15.1 语音合成技术基本原理与分类 202
15.2 神经语音合成技术演进 203
15.3 主流神经语音合成系统架构解析 204
15.4 神经声码器技术 206
15.4.1 神经声码器WaveGlow 206
15.4.2 神经声码器MelGAN 207
15.5 生成式人工智能语音合成创新应用 207
15.5.1 零样本音色复刻技术 207
15.5.2 多语言与跨语言语音合成 209
15.5.3 生成式人工智能语音合成技术的创新应用 211
第16章 语音识别与合成技术的挑战与未来趋势 213
16.1 当前核心技术挑战 213
16.1.1 噪声环境鲁棒性不足 213
16.1.2 实时性与计算效率难以平衡 214
16.1.3 伦理与安全风险 215
16.2 未来技术发展方向 216
16.2.1 多模态语音交互 216
16.2.2 低资源语言与方言支持 216
16.2.3 可持续人工智能与边缘计算 217
16.2.4 情感语音交互 217
16.3 教育与社会影响 217
16.3.1 教育变革:个性化学习助手与无障碍教育 218
16.3.2 文化传承:方言保护与多语言传播 218
16.3.3 内容创作革命:人人都是创作者 218
模块4习题 219