本書從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數據集的理想工具。全書共14章,3個附錄,涉及的主題包括:Haddoop簡介;MapReduce簡介;Hadoop分布式文件系統;Hadoop的I/O、MapReduce應用程序開發(fā);MapReduce的工作機制;MapReduce的類型和格式;MapReduce的特性;如何安裝Hadoop集群,如何管理Hadoop;Pig簡介;Hbase簡介;ZooKeeper簡介,最后還提供了豐富的案例分析。本書是Hadoop權威參考,程序員可從中探索如何分析海量數據集,管理員可以從中了解如何安裝與運行Hadoop集群。