1、趙剛博士在信息化領域耕耘10余年,對大數(shù)據(jù)的認識深刻且系統(tǒng)。
2、闡述的視角放在了大數(shù)據(jù)的技術應用上,對于想利用大數(shù)據(jù)的讀者非常具有參考價值。
3、結(jié)合應用實踐,詳細闡述了傳統(tǒng)信息系統(tǒng)與大數(shù)據(jù)平臺的整合策略,大數(shù)據(jù)應用實踐的流程和方法,并介紹了主要的大數(shù)據(jù)應用產(chǎn)品和解決方案。
大數(shù)據(jù)是互聯(lián)網(wǎng)、移動應用、社交網(wǎng)絡和物聯(lián)網(wǎng)等技術發(fā)展的必然趨勢,大數(shù)據(jù)應用成為當前*為熱門的信息技術應用領域。本書由淺入深,首先概述性地分析了大數(shù)據(jù)的發(fā)展背景、基本概念,從業(yè)務的角度分析了大數(shù)據(jù)應用的主要業(yè)務價值和業(yè)務需求,在此基礎上介紹大數(shù)據(jù)的技術架構和關鍵技術,結(jié)合應用實踐,詳細闡述了傳統(tǒng)信息系統(tǒng)與大數(shù)據(jù)平臺的整合策略,大數(shù)據(jù)應用實踐的流程和方法,并介紹了主要的大數(shù)據(jù)應用產(chǎn)品和解決方案。*后,對大數(shù)據(jù)面臨的挑戰(zhàn)和未來的趨勢進行了展望。第2版,對于這幾年的發(fā)展做一個補充。
趙剛,博士。北京賽智時代信息技術咨詢有限公司(CIOManage)創(chuàng)始人。歷任國內(nèi)著名信息化咨詢公司賽迪顧問股份有限公司高級副總裁、首席信息化咨詢顧問,國內(nèi)計算機系統(tǒng)集成一級資質(zhì)企業(yè)北京賽迪時代信息產(chǎn)業(yè)股份有限公司總經(jīng)理、首席架構師,2012年獲得中國電子信息產(chǎn)業(yè)發(fā)展研究院十大“賽迪學者”稱號,兼任中國信息化推進聯(lián)盟專家、中國電子學會高級會員。
近兩年,主持和參與過的信息化咨詢和集成項目有:國家新一代信息技術應用戰(zhàn)略研究、亞太地區(qū)智慧城市指標體系研究、中國-歐盟信息社會研究、天津市智慧城市規(guī)劃、國土資源部分布式國土資源信息共享服務平臺、國家圖書館文津館智能搜索集群平臺、公安部虛擬化數(shù)據(jù)平臺、中海油企業(yè)級數(shù)據(jù)中心和災備中心規(guī)劃、國藥集團私有云計算平臺規(guī)劃、北京市物聯(lián)網(wǎng)應用示范項目初步設計、鄂爾多斯市人口基礎數(shù)據(jù)庫建設等。
在信息化領域耕耘10余年,服務的政府、企業(yè)客戶超過100家,發(fā)表文章若干篇,著有專著《IT管理體系-戰(zhàn)略、管理和服務》,參與編寫《智慧城市:規(guī)劃、建設和評估》、《信息化基本知識》、《信息系統(tǒng)審計》等。
第1章 大數(shù)據(jù)的概念和發(fā)展背景 1
1.1 大數(shù)據(jù)的發(fā)展背景 1
1.2 大數(shù)據(jù)的概念和特征 4
1.2.1 大數(shù)據(jù)的概念 4
1.2.2 大數(shù)據(jù)的特征 4
1.3 大數(shù)據(jù)的產(chǎn)生 5
1.3.1 數(shù)據(jù)產(chǎn)生由企業(yè)內(nèi)部向企業(yè)外部擴展 5
1.3.2 數(shù)據(jù)產(chǎn)生從Web 1.0向Web 2.0、從互聯(lián)網(wǎng)向移動互聯(lián)網(wǎng)擴展 6
1.3.3 數(shù)據(jù)產(chǎn)生從計算機/互聯(lián)網(wǎng)(IT)向物聯(lián)網(wǎng)(IOT)擴展 7
1.4 數(shù)據(jù)的量級 7
1.4.1 數(shù)據(jù)大小的量級 7
1.4.2 大數(shù)據(jù)的量級 8
1.5 大量不同的數(shù)據(jù)類型 8
1.5.1 按照數(shù)據(jù)結(jié)構分類 9
1.5.2 按照產(chǎn)生主體分類 12
1.5.3 按照數(shù)據(jù)作用方式分類 13
1.6 大數(shù)據(jù)的速度 14
1.7 大數(shù)據(jù)的應用價值 14
1.8 大數(shù)據(jù)的挑戰(zhàn) 15
1.8.1 業(yè)務視角不同帶來的挑戰(zhàn) 15
1.8.2 技術架構不同帶來的挑戰(zhàn) 15
1.8.3 管理策略不同帶來的挑戰(zhàn) 16
第2章 大數(shù)據(jù)應用的業(yè)務需求 17
2.1 大數(shù)據(jù)應用的業(yè)務流程 17
2.1.1 產(chǎn)生數(shù)據(jù) 18
2.1.2 聚集數(shù)據(jù) 18
2.1.3 分析數(shù)據(jù) 19
2.1.4 利用數(shù)據(jù) 19
2.2 大數(shù)據(jù)應用的業(yè)務價值 19
2.2.1 發(fā)現(xiàn)大數(shù)據(jù)的潛在價值 20
2.2.2 發(fā)現(xiàn)動態(tài)行為數(shù)據(jù)的價值 20
2.2.3 實現(xiàn)大數(shù)據(jù)整合創(chuàng)新的價值 20
2.3 各行業(yè)大數(shù)據(jù)應用的個性需求 21
2.3.1 互聯(lián)網(wǎng)與電子商務行業(yè) 21
2.3.2 零售業(yè) 26
2.3.3 金融業(yè) 28
2.3.4 政府 31
2.3.5 醫(yī)療業(yè) 34
2.3.6 能源業(yè) 35
2.3.7 制造業(yè) 37
2.3.8 電信運營業(yè) 38
2.3.9 交通業(yè) 40
2.4 企業(yè)級大數(shù)據(jù)應用的共性需求 42
2.4.1 客戶分析 42
2.4.2 績效分析 46
2.4.3 欺詐和風險評估 47
2.5 以銀行客戶分析為例,分析一個大數(shù)據(jù)的應用場景 48
第3章 大數(shù)據(jù)應用的總體架構和關鍵技術 51
3.1 總體架構 51
3.1.1 業(yè)務目標 51
3.1.2 架構設計原則 52
3.1.3 總體架構參考模型 55
3.1.4 總體架構的特點 58
3.2 大數(shù)據(jù)存儲和處理技術 59
3.2.1 Hadoop:分布式存儲和計算平臺 59
3.2.2 HDFS:分布式文件系統(tǒng) 65
3.2.3 MapReduce:分布式計算框架 72
3.2.4 NoSQL:分布式數(shù)據(jù)庫 98
3.2.5 MPP:大規(guī)模并行處理系統(tǒng) 113
3.2.6 Spark:輕量級的分布式內(nèi)存計算系統(tǒng) 117
3.2.7 S4和Storm:流計算框架 126
3.2.8 大數(shù)據(jù)存儲和處理技術的比較分析 132
3.3 大數(shù)據(jù)查詢和分析技術 133
3.3.1 Hive:基本的Hadoop查詢和分析 134
3.3.2 Hive 2.0:Hive的優(yōu)化和升級 144
3.3.3 實時互動的SQL:Impala和drill 147
3.3.4 基于PostgreSQL的SQL on Hadoop 153
3.4 大數(shù)據(jù)高級分析和可視化技術 154
3.4.1 傳統(tǒng)數(shù)據(jù)倉庫與聯(lián)機分析處理技術 154
3.4.2 大數(shù)據(jù)對傳統(tǒng)分析的挑戰(zhàn) 157
3.4.3 大數(shù)據(jù)挖掘與高級分析 157
3.4.4 大數(shù)據(jù)挖掘與高級分析庫 162
3.4.5 非結(jié)構化復雜數(shù)據(jù)分析 163
3.4.6 實時預測分析 170
3.4.7 開源可視化工具:R語言 177
3.4.8 可視化技術 185
3.5 以銀行客戶分析為例的大數(shù)據(jù)應用體系架構 194
第4章 大數(shù)據(jù)與企業(yè)級應用的整合策略 196
4.1 大數(shù)據(jù)傳輸、接入、整合和流程管理平臺 197
4.1.1 數(shù)據(jù)傳輸 197
4.1.2 數(shù)據(jù)接入 203
4.1.3 數(shù)據(jù)整合 207
4.1.4 流程管理 208
4.2 大數(shù)據(jù)與存儲架構的整合 212
4.2.1 傳統(tǒng)存儲架構比較 212
4.2.2 大數(shù)據(jù)平臺的存儲架構的選擇 214
4.2.3 集群存儲的發(fā)展 214
4.2.4 基于HDFS的集群存儲 216
4.2.5 固態(tài)硬盤(SSD)對內(nèi)存計算的支持 218
4.2.6 軟件定義存儲(SDS) 218
4.2.7 超融合架構(HCI) 220
4.3 大數(shù)據(jù)與網(wǎng)絡架構的發(fā)展 220
4.3.1 統(tǒng)一的以太網(wǎng)結(jié)構 222
4.3.2 軟件定義網(wǎng)絡(SDN) 223
4.3.3 網(wǎng)絡功能虛擬化(NFV) 226
4.4 大數(shù)據(jù)與虛擬化技術的整合 228
4.5 大數(shù)據(jù)與Docker技術 230
4.5.1 Docker概述 230
4.5.2 Docker原理與總體架構 231
4.5.3 Docker與應用程序開發(fā)與管理 237
4.6 大數(shù)據(jù)與云計算 240
4.7 大數(shù)據(jù)安全 242
4.8 以銀行客戶分析為例,分析一個大數(shù)據(jù)的平臺整合 244
第5章 大數(shù)據(jù)應用的實踐方法與案例 246
5.1 實踐方法論 246
5.1.1 業(yè)務需求定義 247
5.1.2 數(shù)據(jù)應用現(xiàn)狀分析與標桿比較 248
5.1.3 大數(shù)據(jù)應用架構規(guī)劃和設計 249
5.1.4 大數(shù)據(jù)技術切入與實施 250
5.1.5 大數(shù)據(jù)試用和評估 251
5.1.6 大數(shù)據(jù)應用推廣 252
5.2 技術應用案例 252
5.2.1 Amazon和Google 252
5.2.2 Yahoo 255
5.2.3 Amazon 257
5.2.4 Facebook 259
5.2.5 Twitter 263
5.2.6 淘寶網(wǎng) 264
5.3 以銀行客戶分析為例的實施案例分析 266
5.3.1 銀行基于大數(shù)據(jù)的客戶分析的業(yè)務需求 266
5.3.2 銀行基于大數(shù)據(jù)的客戶分析的現(xiàn)狀與標桿比較 267
5.3.3 銀行基于大數(shù)據(jù)的客戶分析的應用架構規(guī)劃與設計 269
5.3.4 銀行基于大數(shù)據(jù)的數(shù)據(jù)分析的實施、試點和推廣 269
第6章 大數(shù)據(jù)應用的主流解決方案 270
6.1 產(chǎn)業(yè)鏈 270
6.1.1 國際大數(shù)據(jù)產(chǎn)業(yè)生態(tài) 270
6.1.2 國內(nèi)大數(shù)據(jù)產(chǎn)業(yè)生態(tài) 273
6.2 主流廠商解決方案 274
6.2.1 Cloundera 275
6.2.2 Hortonworks 276
6.2.3 MapR 277
6.2.4 IBM 278
6.2.5 Oracle 280
6.2.6 EMC 281
6.2.7 Intel 282
6.2.8 SAP 283
6.2.9 Teradata 285
第7章 大數(shù)據(jù)應用的未來挑戰(zhàn)和趨勢 286
7.1 隱私保護 286
7.1.1 法律保護 287
7.1.2 技術保護 289
7.1.3 理念革新 290
7.2 技術標準 291
7.2.1 ISO大數(shù)據(jù)標準化進展 291
7.2.2 大數(shù)據(jù)基準和基準測試 293
7.2.3 大數(shù)據(jù)處理分析標準套件 296
7.3 大數(shù)據(jù)治理 296
7.3.1 數(shù)據(jù)治理框架 297
7.3.2 數(shù)據(jù)質(zhì)量管理 298
7.3.3 大數(shù)據(jù)的組織、角色和責任 299
7.4 適應商業(yè)社會的未來趨勢 300
7.4.1 從產(chǎn)品推銷向數(shù)據(jù)營銷的轉(zhuǎn)變 300
7.4.2 從流程驅(qū)動到分析驅(qū)動的轉(zhuǎn)變 300
7.4.3 從私有資源到公共服務的轉(zhuǎn)變 301