《R 語言數(shù)據(jù)分析項目精解:理論、方法、實戰(zhàn)》適合人群:
互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)分析人員:通過閱讀《R 語言數(shù)據(jù)分析項目精解:理論、方法、實戰(zhàn)》,可以把學(xué)到的知識直接運(yùn)用到生產(chǎn)實踐中。
互聯(lián)網(wǎng)產(chǎn)品運(yùn)營人員:通過閱讀《R 語言數(shù)據(jù)分析項目精解:理論、方法、實戰(zhàn)》,可以了解數(shù)據(jù)分析團(tuán)隊一般是如何支持產(chǎn)品運(yùn)營人員的,以及數(shù)據(jù)分析團(tuán)隊能幫助產(chǎn)品運(yùn)營人員干什么,產(chǎn)品運(yùn)營人員將來可以更好地給數(shù)據(jù)分析團(tuán)隊提出分析需求。
統(tǒng)計專業(yè)高校生:《R 語言數(shù)據(jù)分析項目精解:理論、方法、實戰(zhàn)》可以作為行業(yè)實踐案例教材,在學(xué)習(xí)書本知識的同時更好地了解實際情況,親自動手進(jìn)行實踐,提高實戰(zhàn)能力。
其他行業(yè)數(shù)據(jù)分析人員:可以了解互聯(lián)網(wǎng)行業(yè)是如何進(jìn)行數(shù)據(jù)分析和模型開發(fā)的,相互交流和學(xué)習(xí)。
致力于數(shù)據(jù)分析工作的愛好者:《R 語言數(shù)據(jù)分析項目精解:理論、方法、實戰(zhàn)》可以作為數(shù)據(jù)分析從業(yè)人員相互交流、溝通的橋梁。
R語言愛好者:R語言的應(yīng)用滲透到生產(chǎn)實踐的方方面面,《R 語言數(shù)據(jù)分析項目精解:理論、方法、實戰(zhàn)》既講解互聯(lián)網(wǎng)電商實際項目,又是R語言交流的平臺。
本書以互聯(lián)網(wǎng)電商企業(yè)為背景,抽象出工作中常見的數(shù)據(jù)分析問題,利用 R 語言和統(tǒng)計學(xué)列出了詳細(xì)的解決方案和過程。本書共 9 章,前兩章分別為總論和 R 語言入門知識,之后各章分別介紹了運(yùn)營指標(biāo)的建立、指標(biāo)監(jiān)控系統(tǒng)、假設(shè)檢驗及 AB 測試、變量篩選技術(shù)、用戶畫像系統(tǒng)、尋找優(yōu)質(zhì)用戶和文本挖掘等內(nèi)容。本書涉及到的統(tǒng)計方法有:指標(biāo)增長幅度量化方法、層次分析法、時間序列模型、基于正態(tài)分布的一元離群點檢驗、傅里葉譜分析、假設(shè)檢驗、主成分分析、因子分析、模糊聚類、無監(jiān)督下連續(xù)型變量離散化、邏輯回歸模型和文本挖掘等。另外,本書提供了所有實例的 R 語言實現(xiàn)代碼,總計 33 個自定義函數(shù)和數(shù)千行代碼。本書適合數(shù)據(jù)分析從業(yè)人員、產(chǎn)品運(yùn)營人員、統(tǒng)計專業(yè)學(xué)生和 R 語言愛好者閱讀。
羅榮錦,應(yīng)用統(tǒng)計學(xué)碩士、應(yīng)用數(shù)學(xué)和國際經(jīng)濟(jì)與貿(mào)易雙學(xué)士。有8年數(shù)據(jù)分析工作經(jīng)驗,先后從事過金融數(shù)據(jù)分析、網(wǎng)絡(luò)游戲數(shù)據(jù)分析、B2B數(shù)據(jù)庫營銷以及互聯(lián)網(wǎng)用戶行為數(shù)據(jù)分析?,F(xiàn)就職于攜程旅行網(wǎng)擔(dān)任資深數(shù)據(jù)分析師,主要從事用戶行為分析研究、統(tǒng)計學(xué)與數(shù)據(jù)挖掘應(yīng)用等工作,擅長統(tǒng)計建模,熟悉R語言、SAS、SPSS等數(shù)據(jù)挖掘工具。從事數(shù)據(jù)研究工作,一定要“耐得住寂寞,忍受得了孤獨”。
第 1 章 互聯(lián)網(wǎng)+統(tǒng)計學(xué)+R 語言1
1.1 互聯(lián)網(wǎng)中的統(tǒng)計學(xué)1
1.1.1 “互聯(lián)網(wǎng)+”的發(fā)展1
1.1.2 統(tǒng)計學(xué)的發(fā)展2
1.1.3 大數(shù)據(jù)時代的統(tǒng)計學(xué)2
1.2 R 語言――互聯(lián)網(wǎng)與統(tǒng)計學(xué)的橋梁3
1.3 本書結(jié)構(gòu) 5
第 2 章 R 語言基礎(chǔ) 7
2.1 安裝 R 語言 7
2.1.1 獲取和安裝 R 語言 7
2.1.2 安裝 RStudio 9
2.1.3 R 包 10
2.1.4 幫助12
2.2 R 語言基本對象12
2.2.1 數(shù)據(jù)類型12
2.2.2 向量12
2.2.3 矩陣和數(shù)組19
2.2.4 列表27
2.2.5 數(shù)據(jù)框29
2.2.6 因子32
2.2.7 數(shù)據(jù)類型的辨別和轉(zhuǎn)換39
2.2.8 數(shù)據(jù)類型和對象關(guān)系 39
2.3 工作空間和查看對象 40
2.3.1 工作空間和工作目錄 40
2.3.2 遍歷、創(chuàng)建、刪除文件夾 41
2.3.3 查看對象的方法 42
2.4 數(shù)據(jù)導(dǎo)入和導(dǎo)出43
2.4.1 數(shù)據(jù)導(dǎo)入43
2.4.2 數(shù)據(jù)導(dǎo)出49
2.5 操作符和函數(shù)51
2.5.1 操作符51
2.5.2 函數(shù)54
2.6 數(shù)據(jù)集操作59
2.6.1 變量操作60
2.6.2 數(shù)據(jù)集操作63
2.6.3 數(shù)據(jù)集連接67
2.6.4 數(shù)據(jù)匯總68
2.7 控制流71
2.7.1 重復(fù)和循環(huán)71
2.7.2 條件執(zhí)行73
2.7.3 next 和 break 74
2.8 自定義函數(shù)75
第 3 章 互聯(lián)網(wǎng)運(yùn)營指標(biāo)的建立77
3.1 項目背景、目標(biāo)及方案78
3.1.1 項目背景78
3.1.2 項目目標(biāo)78
3.1.3 項目方案78
3.2 項目技術(shù)理論簡介78
3.2.1 骨灰級流量指標(biāo) 78
3.2.2 登錄和激活80
2.2.3 訪問深度和吸引力 81
3.2.4 訂單指標(biāo)85
3.2.5 網(wǎng)站或 APP 性能指標(biāo)86
3.2.6 轉(zhuǎn)化率87
3.2.7 層次分析法87
3.3 項目實踐 92
3.3.1 搭建運(yùn)營指標(biāo)系統(tǒng) 92
3.3.2 制作對比型指標(biāo)及趨勢線 97
3.3.3 創(chuàng)建用戶價值和活躍度指標(biāo) 101
第 4 章 指標(biāo)監(jiān)控系統(tǒng)111
4.1 項目背景、目標(biāo)及方案 111
4.1.1 項目背景111
4.1.2 項目目標(biāo)111
4.1.3 項目方案112
4.2 項目技術(shù)理論簡介112
4.2.1 時間序列基本統(tǒng)計量 112
4.2.2 數(shù)據(jù)觀測與描述性統(tǒng)計 113
4.2.3 隨機(jī)性115
4.2.4 周期性115
4.2.5 節(jié)假日模式識別 115
4.2.6 建模數(shù)據(jù)集的建立 118
4.2.7 指標(biāo)監(jiān)控方法(不含節(jié)假日)125
4.2.8 節(jié)假日指標(biāo)監(jiān)控方法 134
4.2.9 R 語言實例代碼 135
4.3 項目實踐 141
4.3.1 數(shù)據(jù)概覽142
4.3.2 節(jié)假日模式識別 145
4.3.3 模型數(shù)據(jù)集的建立 155
4.3.4 指標(biāo)監(jiān)控(非節(jié)假日)160
4.3.5 節(jié)假日指標(biāo)監(jiān)控 176
4.3.6 總結(jié)181
第 5 章 用數(shù)據(jù)驅(qū)動業(yè)務(wù)――AB 測試 182
5.1 項目背景、目標(biāo)和方案 182
5.1.1 項目背景182
5.1.2 項目目標(biāo)183
5.1.3 項目方案183
5.2 項目技術(shù)理論簡介183
5.2.1 自動化分流策略 183
5.2.2 整體評估指標(biāo)185
5.2.3 概率論預(yù)備知識 186
5.2.4 假設(shè)檢驗191
5.2.5 三個問題197
5.3 項目實踐 197
第 6 章 變量篩選技術(shù)204
6.1 項目背景、目標(biāo)和方案 204
6.1.1 項目背景204
6.1.2 項目目標(biāo)205
6.1.3 項目方案205
6.2 項目技術(shù)理論簡介205
6.2.1 變量相關(guān)性206
6.2.2 變量篩選209
6.2.3 變量降維215
6.2.4 R 語言實例代碼 225
6.3 項目實踐 237
6.3.1 變量篩選238
6.3.2 變量降維243
第 7 章 構(gòu)建用戶畫像系統(tǒng) 247
7.1 項目背景、目標(biāo)和方案 247
7.1.1 項目背景247
7.1.2 項目目標(biāo)248
7.1.3 項目方案248
7.2 項目技術(shù)理論簡介248
7.2.1 用戶畫像的基本概念 248
7.2.2 用戶畫像應(yīng)用領(lǐng)域 249
7.2.3 用戶畫像分類250
7.2.4 用戶畫像構(gòu)建250
7.2.5 用戶畫像標(biāo)簽的數(shù)值處理方法 254
7.3 項目實踐 256
第 8 章 從數(shù)據(jù)中尋找優(yōu)質(zhì)用戶 261
8.1 項目背景、目標(biāo)和方案 261
8.1.1 項目背景261
8.1.2 項目目標(biāo)262
8.1.3 項目方案262
8.2 項目技術(shù)理論簡介262
8.2.1 邏輯回歸的基本概念 262
8.2.2 建模流程266
8.2.3 模型開發(fā)階段269
8.2.4 模型驗證階段279
8.2.5 模型測試階段285
8.2.6 商業(yè)應(yīng)用流程288
8.2.7 R 語言實例代碼 288
8.3 項目實踐 295
8.3.1 數(shù)據(jù)探索295
8.3.2 數(shù)據(jù)處理297
8.3.3 建立模型302
8.3.4 模型驗證304
8.3.5 總結(jié)308
第 9 章 文本挖掘――點評數(shù)據(jù)展示策略 309
9.1 項目背景、目標(biāo)和方案 310
9.1.1 項目背景310
9.1.2 項目目標(biāo)311
9.1.3 項目方案311
9.2 項目技術(shù)理論簡介312
9.2.1 評論文本質(zhì)量量化指標(biāo)模型 312
9.2.2 用戶相似度模型 313
9.2.3 情感性分析316
9.2.4 R 語言實例代碼 321
9.3 項目實踐 326
9.3.1 若干自定義函數(shù) 326
9.3.2 文本質(zhì)量量化指標(biāo)模型 329
9.3.3 用戶相似度模型 334
9.3.4 情感性分析335
9.3.5 總結(jié)340