本書從實用的角度出發(fā),采用理論與實踐相結合的方式,介紹樣本數據處理的基礎知識,力求培養(yǎng)讀者使用Python語言及Kettle軟件進行數據處理的能力。全書內容分別為數據預處理概述、Kettle工具的初步使用、數據的導入與導出、數據清洗、數據標注、Kettle作業(yè)設計、基于Kettle構建數據倉庫、基于Python的數據導入與導出、基于Python的數據整理。 本書作為人工智能學科相關的樣本數據處理技術的入門教材,目的不在于是覆蓋樣本數據處理技術的所有知識點,而是介紹樣本數據處理的主要應用,使讀者了解樣本數據處理的基本構成,以及如何應對不同數據類型的數據預處理工作。為了增強實踐效果,本書中引入了多個基礎技術案例及綜合實踐案例,以幫助讀者了解樣本數據處理涉及的基本技術的知識和技能。 本書可作為高等院校數據科學與大數據技術、計算機、信息管理等相關專業(yè)課程的教材,也可供對樣本數據處理技術感興趣的讀者閱讀。