OliviaParrRud是DataSquare,LLC的執(zhí)行副總裁。Olivia在金融服務行業(yè)已經工作了二十多年,其中10年專門從事信用卡、保險、電信、零售、度假業(yè)、名錄服務行業(yè)的數據挖掘、建模和劃分工作。利用自己分析能力與創(chuàng)造才華,她提供客戶獲取、模型維護、風險、總盈利等方面的分析和解決方案。本書詳細介紹了一種新的數據挖掘技術—數據建模,并著重闡述整個模型開發(fā)過程的細節(jié)。本書包括三個部分。第一部分講述了基礎知識,內容涉及確定目標和從商業(yè)預測中定義目標的重要性,并給出了收集數據和創(chuàng)建數據集的例子。第二部分通過一實例詳甸闡述了模型開發(fā)的整個過程。第三部分通過應用于保險業(yè)、銀行、電信行業(yè)的實例詳細說明了不同目標的數據建模過程中的幾個關鍵步驟。本書將數據挖掘的技藝用飲食烹調的思?爰右在故?,易诱O斫?,遍斦V郵?。蕶┬给除_鬧詼嗍道浞痔逑至俗髡叨嗄甑男幸稻?,毒壉前的手C∮涂突Ч叵倒芾斫>哂屑訓慕杓饔謾1臼槭屎暇哂幸歡ǖ耐臣坪頭治黿;〉畝琳咴畝?,可作为分析师、数据驼a蛉嗽?、营销经理的工佐|植幔部勺魑撲慊喙刈ㄒ檔謀究粕?,研究生綖┠幌娿^潿廖鎩?"什么是數據挖掘數據挖掘(datamining)這個術語涵蓋了應用于各個行業(yè)的多種技術。由于市場份額和利潤競爭的日趨激烈,數據挖掘成為公司在客戶生命周期的各個階段維持競爭力的必要工具。過去,數據挖掘的形式之一也稱為數據捕撈(datadredging)。這種方法曾被認為沒有達到合格的研究標準。也就是說,研究人員實際上可能沒有作任何預定義的假設就開始研究所有的數據。然而,由于這種形式的數據挖掘確實可以發(fā)現有價值的信息,所以它開始被廣為接受。在美國的公司里,如果有一種方法可以發(fā)現如何提高利潤,那么人們會迅速地接受、信賴它。20世紀80年代末至90年代初,另一種形式的數據挖掘開始在營銷領域流行起來。幾個技術領先的信用卡銀行發(fā)現,有一種新的稱為數據建模(datamodeling)的數據挖掘技術可以提高獲得客戶的能力,改進風險管理。大量的活動和空前的增長為數據建模的繁榮發(fā)展提供了肥沃的土壤。數據建模的成功和它所帶來的利潤為它在其他行業(yè)的應用鋪平了道路。目前,使用數據建模技術進行營銷的行業(yè)包括保險業(yè)、零售業(yè)、投資銀行、公共事業(yè)部門、電信業(yè)、能源業(yè)、度假業(yè)、游戲業(yè)和藥品行業(yè)等等。本書的重點許多統(tǒng)計理論的書都談到了數據建模技術。但本書并不是那樣的一本書!本書討論的重點是在營銷、風險和客戶關系管理(CRM)中使用這些技術所需的實踐知識。大部分公司都被數據挖掘軟件工具?鬧擲嗪凸δ芘醚芻ㄧ月搖H砑潭忌撲塹娜砑恰耙子謔褂謾焙汀拔扌樅魏畏治黽寄堋鋇?。但薁楷晤U且言詒玖煊蜆ぷ鞫嗄輳勒廡┕愀媸遣蛔鬮諾?。任褐^O钅康某曬Σ喚黿鋈【鲇詼雜詵椒ㄑУ牧己美斫猓谷【鲇詼允蕁⑹諧「駝逕桃的勘甑睦斫?。事实上,峨s謖齬潭裕P痛砉討皇瞧渲械囊恍〔糠幀?本書將著重闡述整個模型開發(fā)的過程。討論的內容包括對商業(yè)或市場的預測,以及處理過程中所需的復雜的SAS代碼。這是為了強調實際模型處理過程之前與之后的步驟的重要性。本書的讀者隨著數據挖掘應用的飛速發(fā)展,對資深分析師和數據挖掘師的需求也增加了。但是,由于此類人才短缺,公司便雇用有才華的統(tǒng)計學家或初級分析師,他們懂技術,但是缺乏必要的商業(yè)敏感性。公司也可能會購買復雜的數據挖掘軟件工具,這些工具所提供的解決方案對分析技術知識,或者與目標相關的業(yè)務知識都知之甚少。不管是哪種情況,都有可能缺乏某些領域的知識,如定義目標的結構,獲取和準備數據,確認和應用模型以及測量結果等。任何一個領域的錯誤都可能是災難性的,會造成巨大的浪費。本書可作為不同級別的分析師、數據挖掘人員和營銷經理的工作手冊。本書提供了數據建模的逐步指導,尤其強調了必要的商業(yè)知識,以得到有益的結果。對于那些數據挖掘的初學者,本書可作為整個過程的綜合指導。對于經驗豐富的分析師而言,本書可以作為參考手冊。最后,對于管理人員而言,閱讀本書可以對成功運用數據模型所需的技術與過程有基本的了解。本書的結構本書分為三個部分。第一部分講述基礎知識。第1章討論了確定目標和從商業(yè)角度定義目標的重要性。第2章討論并提供了大量的例子,其中包括收集數據和創(chuàng)建建模數據集。第二部分通過一個案例研究,詳細闡述了模型開發(fā)過程的每個步驟。第3章-第7章討論了數據清洗、變量歸約和轉換、模型處理、驗證、實施的步驟。第三部分提供一系列的案例研究,這些案例分別應用于保險業(yè)、銀行、電信等行業(yè),詳細說明了不同目標的數據建模過程的幾個關鍵步驟,包括特征、響應、風險和生命周期值。隨著本書對模型開發(fā)步驟的深入探討,作者加進了幾位業(yè)內專家的合理建議,他們都是數據挖掘領域的先鋒。這些建議對某個主題提出了不同看法,如多重共線性,建立生命周期值模型的其他方法等。所需工具要使用本書提供解決方案,讀者要對統(tǒng)計學有基本的了解。如果你的目標是要得到管理層數據建模的使用建議,則需要進行準確的商業(yè)判斷。本書所有的代碼示例都是用SAS寫的,為了在SAS上實現這些代碼,用戶需要BaseSAS和SAS/STAT。電子數據表都是用微軟的Excel做成的。但是,基本的邏輯和指令對所有的軟件包和建模工具都是有效的。配套光盤本書從第3章—第13章都包含了開發(fā)、驗證和實施數據模型的SAS代碼。對這些代碼稍做修改,再加上一些常識,就能夠從數據準備階段到模型的開發(fā)與驗證階段建立一個模型。但是,這樣需要大量的時間,還有可能出現編碼錯誤。為了簡化這項工作并使代碼更容易地用于不同的數據模型,原出版社出版了配套光盤,但需要讀者另行購買。光盤里包括了開發(fā)不同模型所需的全部代碼,模型包括:響應、驗證、流失、風險、生命周期值或凈現值。開發(fā)目標函數的具體代碼包括信用卡、保險、電信、名錄服務的例子。代碼中有清楚的注釋,解釋了每一個步驟的目的與方法,所需要的軟件是BaseSAS和SAS/STAT。用于創(chuàng)建收益表和增幅圖的電子數據表也包含在光盤中。通過SAS創(chuàng)建的初步分析結果可以得到這些表并加以使用。既然模型處理前后的步驟可以結合任何數據模型軟件包來使用,代碼自然也可以作為獨立的建模模板。模型處理步驟重點在于邏輯遞歸上的數據準備。光盤上還包括用于變量驗證和處理的SAS宏。本書沒有涵蓋的內容一本數據挖掘的書如果沒有提到隱私權,那么就不能算是完整。我相信這是數據挖掘工作者的一項重要的工作。關于這個話題,可以再寫一本書。所以,本書中沒有談到這一點。但是,我希望所有使用個人數據進行營銷的公司都能制訂一項隱私權的法規(guī)。要獲得更進一步的信息和指導,請與DirectMarketingAssociation聯系,電話(212)790-1500,或者訪問他們的網站http://www.the-dma.org。小結有效的數據挖掘是科學與藝術的復雜混合體。數據挖掘工具的數量每年都在增長。研究人員不斷開發(fā)新方法,軟件廠商實現現有的方法,才華橫溢的分析師則利用標準技術來推進過程。數據挖掘(說得具體一點,數據建模)已經成為公司維持利潤的戰(zhàn)略必備工具。希望本書可以成為你實現數據挖掘目標時方便的參考和恰當的向導。"