第1章 大數據概論
1.1 大數據概述
1.2 大數據的行業(yè)應用
1.3 大數據的基本概念
1.4 本章小結
1.5 課后習題
第2章 初識Hadoop
2.1 Hadoop簡介
2.2 Hadoop生態(tài)圈介紹
2.3 本章小結
2.4 課后習題
第3章 Linux基礎
3.1 Linux簡介
3.2 Linux文件管理常用命令、Shell編程
3.2.1 Linux文件基礎知識
3.2.2 Shell編程基礎
3.2.3 Shell流程控制
3.3 本章小結
3.4 課后習題
第4章 Hadoop集群的搭建
4.1 Hadoop集群搭建前的準備
4.1.1 安裝虛擬機軟件
4.1.2 Hadoop集群規(guī)劃
4.1.3 在虛擬機軟件中安裝Linux操作系統(tǒng)
4.1.4 配置Linux系統(tǒng)網絡
4.1.5 SSH服務設置
4.2 Hadoop集群搭建
4.2.1 JDK安裝
4.2.2 Hadoop安裝
4.2.3 Hadoop集群配置
4.3 Hadoop集群啟動
4.3.1 文件系統(tǒng)格式化
4.3.2 啟動和關閉Hadoop集群
4.3.3 查看Hadoop集群運行狀態(tài)
4.4 Hadoop集群使用
4.5 本章小結
4.6 課后練習
第5章 HDFS分布式文件系統(tǒng)
5.1 HDFS簡介
5.1.1 HDFS演變
5.1.2 HDFS的基本概念
5.1.3 HDFS的特點
5.2 HDFS的讀寫
5.2.1 HDFS存儲架構
5.2.2 HDFS文件讀寫原理
5.3 HDFS Shell操作
5.3.1 HDFS的Shell操作
5.3.2 案例——Shell定時采集數據到HDFS
5.4 HDFS Java API操作
5.4.1 HDFS Java API介紹
5.4.2 HDFS Java API案例
5.5 本章小結
5.6 課后習題
第6章 MapReduce分布式計算框架
6.1 MapReduce概述
6.2 .MapRedlace編程模型
6.2.1 MapReduce工作流程
6.2.2 MapTask工作原理
6.2.3 ReduceTask工作原理
6.3 MapReduce案例解析
6.3.1 單詞統(tǒng)計
6.3.2 倒排索引(InvertedIndex)
6.3.3 數據去重(dedup)
6.4 本章小結
6.5 課后習題
第7章 項目實戰(zhàn)——某國新冠肺炎疫情COVID-19分析
7.1 項目說明
7.1.1 MapRedlice PartItiion機制
7.1.2 MapRedlice Combiner規(guī)約
7.1.3 MapReduce編程技巧
7.1.4 數據字段說明
7.2 MapReduce自定義組件
7.2.1 初始化項目
7.2.2 自定義對象序列化
7.2.3 自定義排序
7.2.4 自定義分區(qū)
7.2.5 自定義分組
7.2.6 自定義分組拓展Top N
7.3 MapReduce運行模式
7.3.1 本地運行
7.3.2 打包發(fā)布運行
參考文獻