預(yù)測性文本挖掘基礎(chǔ)

定　價：￥43.00

作　者：	（美）紹洛姆·韋斯（Sholom M.Weiss）（澳）尼亭·因杜爾亞（Nitin Indurkhya）（美）張潼（Tong zhang）,趙仲孟侯，迪譯
出版社：	西安交通大學(xué)出版社
叢編項：
標　簽：	數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

購買這本書可以去

ISBN：	9787560544274	出版時間：	2012-10-01	包裝：	平裝
開本：	16開	頁數(shù)：	234	字數(shù)：

內(nèi)容簡介

　　電腦普及帶來的一個結(jié)果是文檔以數(shù)字形式呈現(xiàn)出來，加之Internet的廣泛使用，這些文檔就變得唾手可得。文本挖掘，即對非結(jié)構(gòu)化的自然語言文本的分析過程，主要針對的是如何從這些文檔中提取信息。《預(yù)測性文本挖掘基礎(chǔ)》是一本入門級的教科書，是在修訂施普林格已經(jīng)成功出版的文本挖掘領(lǐng)域的參考書基礎(chǔ)上得到的，旨在能夠幫助讀者了解這個快速發(fā)展的領(lǐng)域。同時，該書也整合了包括數(shù)據(jù)挖掘、機器學(xué)習(xí)、數(shù)據(jù)庫以及計算語言學(xué)方面很多的理論，因此這本獨一無二的書也提供了一些文本挖掘方面比較實用的建議。書中深層次地討論了文檔分類、信息檢索、聚類和組織文檔、信息提取、基于web的數(shù)據(jù)源的預(yù)測和評價問題。要學(xué)習(xí)《預(yù)測性文本挖掘基礎(chǔ)》，如果讀者有數(shù)據(jù)挖掘方面的知識自然很好，但這并不是必須的。書中有些地方涉及到一些高級概念，這些需要讀者有一定的數(shù)學(xué)功底，當(dāng)然我們也提供了一些直觀上的解釋來幫助那些非專業(yè)讀者。

作者簡介

　　紹洛姆·韋斯，是美國紐約州約克鎮(zhèn)的IBM預(yù)測模型小組的研究成員，同時也是美國新澤西州羅格斯大學(xué)計算機科學(xué)專業(yè)的榮譽教授。霓廷·因杜爾亞，是澳大利亞新南威爾士大學(xué)計算機科學(xué)工程學(xué)院的講師，同時也是數(shù)據(jù)挖掘公司Data-Miner有限公司的創(chuàng)始人和總裁。張潼，在美國斯坦福大學(xué)獲得計算機科學(xué)博士學(xué)位，現(xiàn)在是美國新澤西州羅格斯大學(xué)統(tǒng)計系的教授。

圖書目錄

推薦序
譯者序
前言
第1章文本挖掘概述
1.1 文本挖掘有什么特別之處？
1.1.1 結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)？
1.1.2 文本數(shù)據(jù)是否不同于數(shù)值數(shù)據(jù)？
1.2 文本挖掘可以解決什么類型的問題？
1.3 文本分類
1.4 信息檢索
1.5 文檔聚類與組織
1.6 信息提取
1.7 預(yù)測與評估
1.8 下章內(nèi)容
1.9 小結(jié)
1.10 歷史與文獻評述
1.11 問題與練習(xí)
第2章從文本信息到數(shù)值向量
2.1 文檔收集
2.2 文檔標準化
2.3 標記化
2.4 詞形轉(zhuǎn)化
2.4.1 詞干變形
2.4.2 化詞干為詞根
2.5 預(yù)測向量生成
2.5.1 多詞特征
2.5.2 正確答案的標簽
2.5.3 通過屬性分級選擇特征
2.6 語句邊界確定
2.7 詞性標簽化
2.8 詞義消歧
2.9 短語識別
2.10 命名實體識別
2.11 語法分析
2.12 特征生成
2.13 小結(jié)
2.14 歷史與文獻評述
2.15 課后練習(xí)
第3章用文本進行預(yù)測
3.1 識別文檔符合模式
3.2 需要多少文檔才可以滿足預(yù)測需求？
3.3 文檔分類
3.4 從文本中學(xué)習(xí)預(yù)測
3.4.1 相似性與最近鄰法
3.4.2 文檔相似性
3.4.3 決策規(guī)則
3.4.4 決策樹
3.4.5 概率估計
3.4.6 線性評分方法
3.5 性能評估
3.5.1 當(dāng)前與未來的性能估計
3.5.2 從學(xué)習(xí)方法中獲取最大收益
3.6 應(yīng)用
3.7 小結(jié)
3.8 歷史與文獻評述
3.9 問題與練習(xí)
第4章信息檢索和文本挖掘
第5章文檔集的結(jié)構(gòu)發(fā)現(xiàn)
第6章在文檔中查詢信息
第7章面向預(yù)測的數(shù)據(jù)源：數(shù)據(jù)庫、混雜數(shù)據(jù)與Web
第8章實例分析
第9章新研究方向
附錄A 軟件說明
參考文獻
作者索引
主題索引