Apache Spark扩展、优化的*佳实践在一切都顺利时,Apache Spark会带给你极致的体验。但如果你没有达到所希望的性能提升结果,或者对于生产上应用Spark没有足够的信心,那么这本书对你来说很实用。在这里,本书作者通过一些性能优化让Spark查询运行得更快,能够处理更大的数据量级,同时只用到更少的资源。
本书提到的相关技术可以节约数据系统架构的成本以及开发人员的时间,适用软件工程师、数据工程师,以及面对大规模数据应用的系统管理员。此外你还可以加深对Spark的理解,然后学会如何驾驭它。
“本书可以帮助你设计出生产级别Apache Spark方案。同时有助于理解一些关键的Spark优化和内部原理。”——Denny Lee微软Azure DocumentDB团队核心项目经理
通过本书,你可以了解到:Spark SQL的新接口如何为SQL的RDD数据结构提升性能。Spark Core与Spark SQL中数据join的不同选择方式。充分利用标准RDD转换的技术。如何解决Spark中键值范式的性能问题。不借助Scala或其他JVM语言来编写高性能的Spark代码。采用改进建议后,如何来测试其功能及性能情况。使用Spark MLlib和Spark ML机器学习库。Spark的流处理组件、外部的社区扩展包。