《Spark 与 Hadoop 大数据分析》译者序

目前，大数据已经成为了一个热点，各个专业领域都在利用大数据技术解决复杂的业务问题。同时，有很多业务人员和技术人员对大数据技术还不了解，觉得大数据技术背后的技术平台很复杂深奥。而这本 “Big Data Analytics” 就可以让读者循序渐进地熟悉目前主流的大数据技术平台。

本书比较系统地讲解了利用 Hadoop 和 Spark 及其生态系统里的一系列工具进行大数据分析的方法，并配套了详细的示例，是一本比较实用的参考书。

读者可以按照本书的进度学习。这本书的难度并不大，绝大部分内容都配有详细的说明和实践步骤。偶尔会有一些背景知识需要补充，我也尽力在译者注里进行了说明，希望对读者能有所帮助。

读者可以看到，Hadoop 和 Spark 实际上并不是相互竞争的关系，二者可以搭配使用，相互补充，为大数据分析人员提供一个全面和统一的技术框架，使之能够专注于业务需求，而无需在技术实现的层面花费太多精力。

这本书的定位主要是在大数据技术平台的搭建和配置方面。虽然书名叫做 “Big Data Analytics”，但是书中的核心是大数据分析的基础技术框架，而不是大数据分析方法本身，其中用到的机器学习模型并没有详细地进行讲解。

从这个角度来说，这本书比较适合大数据分析的技术支持人员，以及对机器学习算法和模型已有一定造诣，希望利用最新的技术平台进行分析的独立研究者。

如果读者对机器学习的算法和模型感兴趣，可以参考我之前翻译的那本《预测分析 - R 语言实现》，它比较深入地讲解了机器学习常用的一些模型，并且有详细的示例帮助读者进行练习。

照例，我在 GitHub 上为本书也开通了一个讨论区，网址是 https://github.com/coderLMN/BigDataAnalytics/issues 。如果读者在阅读中遇到问题或错误，欢迎来这里提出，更欢迎参与讨论。谢谢！

根据我之前的经验，这样的讨论区对于不少读者来说是很实用的。他们不仅能提出问题、参与讨论，也可以提出自己的观点和实现方法，让自己、译者、其他读者都能从中获益。

在此我要感谢贾立恒等读者在讨论中给我带来的启发。另外，他们在学习过程中表现出来的认真和严谨对我也是一种无声的督促，让我在翻译的过程中不敢懈怠，时刻提醒自己要对翻译出来的每个字负责。

最后，我还是要感谢我的家人，他们对我的翻译工作给予了极大的耐心和理解，让我能专心地从事这项我热爱的工作。

coderLMN / BigDataAnalytics