Web數(shù)據(jù)挖掘

定　價(jià)：￥49.00

作　者：	（美）劉兵（Liu，B.）著，俞勇等譯
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

購(gòu)買這本書可以去

ISBN：	9787302193388	出版時(shí)間：	2009-04-01	包裝：	平裝
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：	375	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　《Web數(shù)據(jù)挖掘》旨在講述這些任務(wù)以及它們的核心挖掘算法；盡可能涵蓋每個(gè)話題的廣泛內(nèi)容，給出足夠多的細(xì)節(jié)，以便讀者無(wú)須借助額外的閱讀，即可獲得相對(duì)完整的關(guān)于算法和技術(shù)的知識(shí)。其中結(jié)構(gòu)化數(shù)據(jù)的抽取、信息整合、觀點(diǎn)挖掘和Web使用挖掘等4章是《Web數(shù)據(jù)挖掘》的特色，這些內(nèi)容在已有書籍中沒(méi)有提及，但它們?cè)赪eb數(shù)據(jù)挖掘中卻占有非常重要的地位。當(dāng)然，傳統(tǒng)的Web挖掘主題，如搜索、頁(yè)面爬取和資源探索以及鏈接分析在書中也作了詳細(xì)描述?！禬eb數(shù)據(jù)挖掘》盡管題為“Web數(shù)據(jù)挖掘”，卻依然涵蓋了數(shù)據(jù)挖掘和信息檢索的核心主題；因?yàn)閃eb挖掘大量使用了它們的算法和技術(shù)。數(shù)據(jù)挖掘部分主要由關(guān)聯(lián)規(guī)則和序列模式、監(jiān)督學(xué)習(xí)（分類）、無(wú)監(jiān)督學(xué)習(xí)（聚類）這三大最重要的數(shù)據(jù)挖掘任務(wù)，以及半監(jiān)督學(xué)習(xí)這個(gè)相對(duì)深入的主題組成。而信息檢索對(duì)于Web挖掘而言最重要的核心主題都有所闡述。

作者簡(jiǎn)介

　　劉兵（Bing Liu），伊利諾伊大學(xué)芝加哥分校（tnc）教授，他在愛(ài)丁堡大學(xué)獲得人工智能博士學(xué)位。劉兵教授是Web挖掘研究領(lǐng)域的國(guó)際知名專家，在Web內(nèi)容挖掘、互聯(lián)網(wǎng)觀點(diǎn)挖掘、數(shù)據(jù)挖掘等領(lǐng)域有非常高的造詣，他先后在國(guó)際著名學(xué)術(shù)期刊與重要國(guó)際學(xué)術(shù)會(huì)議（如KDD、www、AAAl、SIGIR、ICML、TKDE等）上發(fā)布關(guān)于數(shù)據(jù)挖掘、Web挖掘和文本挖掘論文一百多篇。劉兵教授擔(dān)任過(guò)多個(gè)國(guó)際期刊的編輯，也是多個(gè)國(guó)際學(xué)術(shù)會(huì)議（如www、KDD與AAAl等）的程序委員會(huì)委員。

圖書目錄

第一部分數(shù)據(jù)挖掘基礎(chǔ)
第1章概述3
1.1 什么是萬(wàn)維網(wǎng)3
1.2 萬(wàn)維網(wǎng)和互聯(lián)網(wǎng)的歷史簡(jiǎn)述4
1.3 Web數(shù)據(jù)挖掘5
1.3.1 什么是數(shù)據(jù)挖掘6
1.3.2 什么是Web數(shù)據(jù)挖掘7
1.4 各章概要8
1.5 如何閱讀本書10
文獻(xiàn)評(píng)注10
第2章關(guān)聯(lián)規(guī)則和序列模式12
2.1 關(guān)聯(lián)規(guī)則的基本概念12
2.2 Apriori算法14
2.2.1 頻繁項(xiàng)目集生成14
2.2.2 關(guān)聯(lián)規(guī)則生成17
2.3 關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)格式19
2.4 多最小支持度的關(guān)聯(lián)規(guī)則挖掘20
2.4.1 擴(kuò)展模型21
2.4.2 挖掘算法22
2.4.3 規(guī)則生成26
2.5 分類關(guān)聯(lián)規(guī)則挖掘27
2.5.1 問(wèn)題描述27
2.5.2 挖掘算法28
2.5.3 多最小支持度分類關(guān)聯(lián)規(guī)則挖掘31
2.6 序列模式的基本概念31
2.7 基于GSP挖掘序列模式32
2.7.1 GSP算法33
2.7.2 多最小支持度挖掘34
2.8 基于PrefixSpan算法的序列模式挖掘37
2.8.1 PrefixSpan算法38
2.8.2 多最小支持度挖掘39
2.9 從序列模式中產(chǎn)生規(guī)則41
2.9.1 序列規(guī)則41
2.9.2 標(biāo)簽序列規(guī)則41
2.9.3 分類序列規(guī)則42
文獻(xiàn)評(píng)注42
目錄目錄
第3章監(jiān)督學(xué)習(xí)45
3.1 基本概念45
3.2 決策樹(shù)推理48
3.2.1 學(xué)習(xí)算法49
3.2.2 混雜度函數(shù)50
3.2.3 處理連續(xù)屬性53
3.2.4 其他一些問(wèn)題54
3.3 評(píng)估分類器56
3.3.1 評(píng)估方法56
3.3.2 查準(zhǔn)率、查全率、F-score和平衡點(diǎn)(Breakeven Point)57
3.4 規(guī)則推理59
3.4.1 序列化覆蓋59
3.4.2 規(guī)則學(xué)習(xí)： Learn-One-Rule函數(shù)61
3.4.3 討論63
3.5 基于關(guān)聯(lián)規(guī)則的分類63
3.5.1 使用類關(guān)聯(lián)規(guī)則進(jìn)行分類64
3.5.2 使用類關(guān)聯(lián)規(guī)則作為分類屬性66
3.5.3 使用古典的關(guān)聯(lián)規(guī)則分類66
3.6 樸素貝葉斯分類67
3.7 樸素貝葉斯文本分類70
3.7.1 概率框架70
3.7.2 樸素貝葉斯模型71
3.7.3 討論73
3.8 支持向量機(jī)73
3.8.1 線性支持向量機(jī)：可分的情況74
3.8.2 線性支持向量機(jī)：數(shù)據(jù)不可分的情況78
3.8.3 非線性支持向量機(jī)：核方法80
3.9 k-近鄰學(xué)習(xí)82
3.10 分類器的集成83
3.10.1 Bagging83
3.10.2 Boosting84
文獻(xiàn)評(píng)注84
第4章無(wú)監(jiān)督學(xué)習(xí)87
4.1 基本概念87
4.2 k-均值聚類89
4.2.1 k-均值算法89
4.2.2 k-均值算法的硬盤版本91
4.2.3 優(yōu)勢(shì)和劣勢(shì)92
4.3 聚類的表示95
4.3.1 聚類的一般表示方法95
4.3.2 任意形狀的聚類95
4.4 層次聚類96
4.4.1 單鏈接方法97
4.4.2 全鏈接方法98
4.4.3 平均鏈接方法98
4.4.4 優(yōu)勢(shì)和劣勢(shì)98
4.5 距離函數(shù)99
4.5.1 數(shù)值的屬性(Numeric Attributes)99
4.5.2 布爾屬性和符號(hào)屬性(Binary and Nominal Attributes)99
4.5.3 文本文檔101
4.6 數(shù)據(jù)標(biāo)準(zhǔn)化101
4.7 混合屬性的處理103
4.8 采用哪種聚類算法104
4.9 聚類的評(píng)估104
4.10 發(fā)現(xiàn)數(shù)據(jù)區(qū)域和數(shù)據(jù)空洞106
文獻(xiàn)評(píng)注108
第5章部分監(jiān)督學(xué)習(xí)110
5.1 從已標(biāo)注數(shù)據(jù)和無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)110
5.1.1 使用樸素貝葉斯分類器的EM算法111
5.1.2 Co-Training114
5.1.3 自學(xué)習(xí)115
5.1.4 直推式支持向量機(jī)116
5.1.5 基于圖的方法117
5.1.6 討論119
5.2 從正例和無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)119
5.2.1 PU學(xué)習(xí)的應(yīng)用120
5.2.2 理論基礎(chǔ)121
5.2.3 建立分類器：兩步方法122
5.2.4 建立分類器：直接方法127
5.2.5 討論128
附錄：樸素貝葉斯EM算法的推導(dǎo)129
文獻(xiàn)評(píng)注131第二部分 Web挖掘
第6章信息檢索與Web搜索135
6.1 信息檢索中的基本概念136
6.2 信息檢索模型138
6.2.1 布爾模型138
6.2.2 向量空間模型139
6.2.3 統(tǒng)計(jì)語(yǔ)言模型141
6.3 關(guān)聯(lián)性反饋142
6.4 評(píng)估標(biāo)準(zhǔn)143
6.5 文本和網(wǎng)頁(yè)的預(yù)處理147
6.5.1 停用詞移除147
6.5.2 詞干提取147
6.5.3 其他文本預(yù)處理步驟148
6.5.4 網(wǎng)頁(yè)預(yù)處理步驟148
6.5.5 副本探測(cè)149
6.6 倒排索引及其壓縮150
6.6.1 倒排索引150
6.6.2 使用倒排索引搜索151
6.6.3 索引的建立152
6.6.4 索引的壓縮153
6.7 隱式語(yǔ)義索引157
6.7.1 奇異值分解158
6.7.2 查詢和檢索159
6.7.3 實(shí)例160
6.7.4 討論163
6.8 Web搜索163
6.9 元搜索引擎和組合多種排序165
6.9.1 使用相似度分?jǐn)?shù)的合并166
6.9.2 使用排名位置的合并166
6.10 網(wǎng)絡(luò)作弊168
6.10.1 內(nèi)容作弊169
6.10.2 鏈接作弊169
6.10.3 隱藏技術(shù)170
6.10.4 抵制作弊171
文獻(xiàn)評(píng)注172
第7章鏈接分析174
7.1 社會(huì)關(guān)系網(wǎng)分析175
7.1.1 中心性175
7.1.2 權(quán)威177
7.2 同引分析和引文耦合178
7.2.1 同引分析178
7.2.2 引文耦合179
7.3 PageRank179
7.3.1 PageRank算法180
7.3.2 PageRank算法的優(yōu)點(diǎn)和缺點(diǎn)185
7.3.3 Timed PageRank185
7.4 HITS186
7.4.1 HITS算法187
7.4.2 尋找其他的特征向量189
7.4.3 同引分析和引文耦合的關(guān)系189
7.4.4 HITS算法的優(yōu)點(diǎn)和缺點(diǎn)189
7.5 社區(qū)發(fā)現(xiàn)191
7.5.1 問(wèn)題定義191
7.5.2 二分核心社區(qū)192
7.5.3 最大流社區(qū)193
7.5.4 基于中介性的電子郵件社區(qū)195
7.5.5 命名實(shí)體的重疊社區(qū)196
文獻(xiàn)評(píng)注197
第8章 Web爬取199
8.1 一個(gè)簡(jiǎn)單爬蟲算法199
8.1.1 寬度優(yōu)先爬蟲201
8.1.2 帶偏好的爬蟲201
8.2 實(shí)現(xiàn)議題202
8.2.1 網(wǎng)頁(yè)獲取202
8.2.2 網(wǎng)頁(yè)解析202
8.2.3 刪除無(wú)用詞并提取詞干204
8.2.4 鏈接提取和規(guī)范化204
8.2.5 爬蟲陷阱206
8.2.6 網(wǎng)頁(yè)庫(kù)206
8.2.7 并發(fā)性207
8.3 通用爬蟲208
8.3.1 可擴(kuò)展性208
8.3.2 覆蓋度、新鮮度和重要度209
8.4 限定爬蟲210
8.5 主題爬蟲212
8.5.1 主題本地性和線索213
8.5.2 最優(yōu)優(yōu)先變種217
8.5.3 自適應(yīng)219
8.6 評(píng)價(jià)標(biāo)準(zhǔn)223
8.7 爬蟲道德和沖突226
8.8 最新進(jìn)展228
文獻(xiàn)評(píng)注230
第9章結(jié)構(gòu)化數(shù)據(jù)抽?。喊b器生成231
9.1 預(yù)備知識(shí)231
9.1.1 兩種富含數(shù)據(jù)的網(wǎng)頁(yè)232
9.1.2 數(shù)據(jù)模型233
9.1.3 數(shù)據(jù)實(shí)例的HTML標(biāo)記編碼235
9.2 包裝器歸納236
9.2.1 從一張網(wǎng)頁(yè)抽取237
9.2.2 學(xué)習(xí)抽取規(guī)則238
9.2.3 識(shí)別提供信息的樣例242
9.2.4 包裝器維護(hù)242
9.3 基于實(shí)例的包裝器學(xué)習(xí)243
9.4 自動(dòng)包裝器生成中的一些問(wèn)題245
9.4.1 兩個(gè)抽取問(wèn)題246
9.4.2 作為正則表達(dá)式的模式246
9.5 字符串匹配和樹(shù)匹配247
9.5.1 字符串編輯距離247
9.5.2 樹(shù)匹配249
9.6 多重對(duì)齊252
9.6.1 中星方法252
9.6.2 部分樹(shù)對(duì)齊253
9.7 構(gòu)建DOM樹(shù)257
9.8 基于列表頁(yè)的抽?。?平坦數(shù)據(jù)記錄258
9.8.1 有關(guān)數(shù)據(jù)記錄的兩個(gè)觀察結(jié)果258
9.8.2 挖掘數(shù)據(jù)區(qū)域259
9.8.3 從數(shù)據(jù)區(qū)域中識(shí)別數(shù)據(jù)記錄263
9.8.4 數(shù)據(jù)項(xiàng)對(duì)齊與抽取263
9.8.5 利用視覺(jué)信息264
9.8.6 一些其他技術(shù)264
9.9 基于列表頁(yè)的抽?。?嵌套數(shù)據(jù)記錄265
9.10 基于多張網(wǎng)頁(yè)的抽取269
9.10.1 采用前幾節(jié)中的技術(shù)270
9.10.2 RoadRunner算法270
9.11 一些其他問(wèn)題271
9.11.1 從其他網(wǎng)頁(yè)中抽取271
9.11.2 析取還是可選272
9.11.3 一個(gè)集合類型還是一個(gè)元組類型273
9.11.4 標(biāo)注與整合273
9.11.5 領(lǐng)域相關(guān)的抽取273
9.12 討論274
文獻(xiàn)評(píng)注274
第10章信息集成276
10.1 什么是樣式表匹配277
10.2 樣式表匹配的預(yù)處理工作278
10.3 樣式表層次的匹配279
10.3.1 基于語(yǔ)言學(xué)的算法279
10.3.2 基于樣式表中限制的算法280
10.4 基于領(lǐng)域和實(shí)例層次的匹配280
10.5 不同相似度的聯(lián)合282
10.6 1：m匹配283
10.7 其他問(wèn)題284
10.7.1 重用以前的匹配結(jié)果284
10.7.2 大量樣式表的匹配285
10.7.3 樣式表匹配的結(jié)果285
10.7.4 用戶交互285
10.8 Web搜索界面的集成285
10.8.1 基于聚類的算法287
10.8.2 基于互關(guān)系的方法289
10.8.3 基于實(shí)例的方法290
10.9 構(gòu)建一個(gè)全局的搜索界面292
10.9.1 結(jié)構(gòu)上的正確性和合并算法293
10.9.2 詞匯的正確性294
10.9.3 實(shí)例的正確性295
文獻(xiàn)評(píng)注295
第11章觀點(diǎn)挖掘296
11.1 意見(jiàn)分類297
11.1.1 基于意見(jiàn)短語(yǔ)的分類297
11.1.2 采用文本分類方法進(jìn)行意見(jiàn)分類299
11.1.3 基于評(píng)分函數(shù)進(jìn)行分類299
11.2 基于特征的觀點(diǎn)挖掘和摘要300
11.2.1 問(wèn)題定義301
11.2.2 對(duì)象特征抽取305
11.2.3 格式1中正面和負(fù)面評(píng)價(jià)部分的特征抽取306
11.2.4 符合格式2和3的評(píng)審上的特征抽取308
11.2.5 觀點(diǎn)傾向分類309
11.3 比較性句子和比較關(guān)系挖掘310
11.3.1 問(wèn)題定義311
11.3.2 等級(jí)比較性語(yǔ)句的識(shí)別312
11.3.3 比較關(guān)系的抽取314
11.4 觀點(diǎn)搜索315
11.5 觀點(diǎn)欺詐316
11.5.1 觀點(diǎn)欺詐的目標(biāo)和行為317
11.5.2 欺詐和欺詐者的種類317
11.5.3 隱藏技巧318
11.5.4 欺詐檢測(cè)318
文獻(xiàn)評(píng)注320
第12章 Web使用挖掘322
12.1 數(shù)據(jù)收集和預(yù)處理323
12.1.1 數(shù)據(jù)的來(lái)源和類型323
12.1.2 Web使用記錄數(shù)據(jù)預(yù)處理的關(guān)鍵元素326
12.2 Web使用記錄挖掘的數(shù)據(jù)建模331
12.3 Web用法模式的發(fā)現(xiàn)和分析334
12.3.1 會(huì)話和訪問(wèn)者分析334
12.3.2 聚類分析和訪問(wèn)者分割334
12.3.3 關(guān)聯(lián)及相關(guān)度分析337
12.3.4 序列和導(dǎo)航模式分析340
12.3.5 基于Web用戶事務(wù)的分類和預(yù)測(cè)342
12.4 討論和展望343
文獻(xiàn)評(píng)注344
參考文獻(xiàn)345