Azure Databricks是一款基于云的大數據分析和機器學習平臺,用于實現基于Apache Spark的數據處理,為快速增長的海量數據的處理和決策需求分析提供了良好的支撐?!禔pache Spark大數據分析:基于Azure Databricks云平臺》詳細介紹基于Azure Databricks云平臺來使用Apache Spark完成大規(guī)模數據處理和分析的方法。本書總計11章,首先介紹大規(guī)模數據分析相關的概念;然后介紹受管的Spark及其與Databricks的關系,以及Databricks的版本差異和使用方法(涵蓋工作區(qū)、集群、筆記本、Databricks文件系統(tǒng)、數據導入/導出等內容);接著介紹使用SQL和Python分別實現數據分析的過程,數據提取、變換、加載、存儲、優(yōu)化技巧等高階數據處理方法以及外部連接工具、生產環(huán)境集成等內容;后探討了運行機器學習算法、合并數據更新以及通過API運行Databricks、Delta流處理等高階主題。作為數據分析領域的入門書,本書具有很強的實用性,可供數據工程師、數據分析師和決策分析人員等學習和參考。