Spark大数据技术与应用（Scala版）——基于Hadoop 3.3+Spark 3.5_李新辉_9787121515477

Spark 是业界主流的大数据计算框架，拥有强大的分布式计算能力，能够充分利用大量的廉价机器进行大数据的处理工作，同时又具备较高的性能，这使得它在各大互联网企业中有着广泛的应用。本书通过一系列通俗易懂的数据处理实例展开，详细阐述Spark大数据平台与环境搭建、Spark RDD 离线数据计算、Spark SQL离线数据处理、Spark Streaming流数据计算等一系列常见的大数据处理技术，在此基础上对Spark框架的核心概念及技术原理进行详细分析，最后通过一个综合实例展示Spark离线数据处理的具体应用与部署。本书将Scala基础知识的介绍融入实例中，并未像传统做法那样设置单独的章节，方便读者按需学习，以减轻学习一种新编程语言的压力。全书各环节遵循“做中学”的设计理念，内容编排贴近初学者的认知规律，从细小简单的实例入手，辅以大量配图，对学习过程中涉及的枯燥数据、抽象概念和复杂原理予以图示化的解释说明，还安排了大量单元训练，以达到教学过程中的“学以致用”目的，内容编写以语言浅显易懂、技术体系清晰、逻辑衔接合理、知识内容够用为原则。在最后安排的数据处理综合实例中，分别从需求分析、技术准备、数据清洗、需求实现、数据可视化等几个关键环节展开叙述，便于读者对Spark大数据项目的整体开发流程有一个实际的体会。

你还可能感兴趣