coderLMN / BigDataAnalytics

《Spark 与 Hadoop 大数据分析》讨论区

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

《Spark 与 Hadoop 大数据分析》译者序

目前,大数据已经成为了一个热点,各个专业领域都在利用大数据技术解决复杂的业务问题。同时,有很多业务人员和技术人员对大数据技术还不了解,觉得大数据技术背后的技术平台很复杂深奥。而这本 “Big Data Analytics” 就可以让读者循序渐进地熟悉目前主流的大数据技术平台。

本书比较系统地讲解了利用 Hadoop 和 Spark 及其生态系统里的一系列工具进行大数据分析的方法,并配套了详细的示例,是一本比较实用的参考书。

读者可以按照本书的进度学习。这本书的难度并不大,绝大部分内容都配有详细的说明和实践步骤。偶尔会有一些背景知识需要补充,我也尽力在译者注里进行了说明,希望对读者能有所帮助。

读者可以看到,Hadoop 和 Spark 实际上并不是相互竞争的关系,二者可以搭配使用,相互补充,为大数据分析人员提供一个全面和统一的技术框架,使之能够专注于业务需求,而无需在技术实现的层面花费太多精力。

这本书的定位主要是在大数据技术平台的搭建和配置方面。虽然书名叫做 “Big Data Analytics”,但是书中的核心是大数据分析的基础技术框架,而不是大数据分析方法本身,其中用到的机器学习模型并没有详细地进行讲解。

从这个角度来说,这本书比较适合大数据分析的技术支持人员,以及对机器学习算法和模型已有一定造诣,希望利用最新的技术平台进行分析的独立研究者。

如果读者对机器学习的算法和模型感兴趣,可以参考我之前翻译的那本《预测分析 - R 语言实现》,它比较深入地讲解了机器学习常用的一些模型,并且有详细的示例帮助读者进行练习。

照例,我在 GitHub 上为本书也开通了一个讨论区,网址是 https://github.com/coderLMN/BigDataAnalytics/issues 。如果读者在阅读中遇到问题或错误,欢迎来这里提出,更欢迎参与讨论。谢谢!

根据我之前的经验,这样的讨论区对于不少读者来说是很实用的。他们不仅能提出问题、参与讨论,也可以提出自己的观点和实现方法,让自己、译者、其他读者都能从中获益。

在此我要感谢贾立恒等读者在讨论中给我带来的启发。另外,他们在学习过程中表现出来的认真和严谨对我也是一种无声的督促,让我在翻译的过程中不敢懈怠,时刻提醒自己要对翻译出来的每个字负责。

最后,我还是要感谢我的家人,他们对我的翻译工作给予了极大的耐心和理解,让我能专心地从事这项我热爱的工作。

About

《Spark 与 Hadoop 大数据分析》讨论区