資深大數(shù)據(jù)專(zhuān)家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),拒絕晦澀,開(kāi)啟大數(shù)據(jù)與機(jī)器學(xué)習(xí)妙趣之旅
以降低學(xué)習(xí)曲線(xiàn)和閱讀難度為宗旨,重點(diǎn)講解了統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級(jí)拓展技能,清晰勾勒出大數(shù)據(jù)技術(shù)路線(xiàn)與產(chǎn)業(yè)藍(lán)圖
目前很多大中型企業(yè)都有數(shù)據(jù)分析崗位,尤其是和自己業(yè)務(wù)結(jié)合緊密的分析崗位。企業(yè)求賢若渴,而求職者對(duì)數(shù)據(jù)分析崗位望而卻步。這就是當(dāng)前大數(shù)據(jù)分析市場(chǎng)的尷尬。
原因有三:
●數(shù)學(xué)基礎(chǔ)薄弱:很多應(yīng)用中的統(tǒng)計(jì)學(xué)、概率學(xué),成為學(xué)習(xí)中的巨大阻力。
●學(xué)習(xí)成本高:數(shù)學(xué)和相關(guān)的算法過(guò)于抽象,布道者往往忽略了很多解釋性的內(nèi)容,使得讀者學(xué)習(xí)起來(lái)費(fèi)時(shí)費(fèi)力。
●變現(xiàn)不確定:這也是數(shù)據(jù)分析人員的尷尬。個(gè)人對(duì)數(shù)據(jù)的加工增值以及變現(xiàn)有多大的貢獻(xiàn)難以度量。
本書(shū)通俗易懂,有高中數(shù)學(xué)基礎(chǔ)即可看懂,同時(shí)結(jié)合大量案例與漫畫(huà),將高度抽象的數(shù)學(xué)、算法與應(yīng)用,與現(xiàn)實(shí)生活中的案例和事件一一做了關(guān)聯(lián),將源自生活的抽象還原出來(lái),幫助讀者理解后,又帶領(lǐng)大家將這些抽象的規(guī)律與算法應(yīng)用于實(shí)踐,貼合讀者需求。同時(shí),本書(shū)不是割裂講解大數(shù)據(jù)與機(jī)器學(xué)習(xí)的算法和應(yīng)用,還講解了其生態(tài)環(huán)境與關(guān)聯(lián)內(nèi)容,讓讀者更全面地知曉淵源與未來(lái),是系統(tǒng)學(xué)習(xí)大數(shù)據(jù)與機(jī)器學(xué)習(xí)的不二之選:
●大數(shù)據(jù)產(chǎn)業(yè)解讀——剖析產(chǎn)業(yè)情況,人才供需、職業(yè)選擇與相應(yīng)“武器”庫(kù);
●步入大數(shù)據(jù)之門(mén)——解讀數(shù)據(jù)、信息、算法,以及與大數(shù)據(jù)應(yīng)用的關(guān)系;
●大數(shù)據(jù)基石——結(jié)合大量示例和漫畫(huà),趣味講解大數(shù)據(jù)算法應(yīng)掌握的數(shù)學(xué)知識(shí),無(wú)障礙學(xué)習(xí);
●大數(shù)據(jù)算法奧義——信息論、向量空間、回歸、聚類(lèi)、分類(lèi)等*為核心的算法的釋義與應(yīng)用,舉重若輕;
●大數(shù)據(jù)熱門(mén)應(yīng)用——關(guān)聯(lián)分析、用戶(hù)畫(huà)像、推薦算法、文本挖掘、人工神經(jīng)網(wǎng)絡(luò)等*實(shí)用、*需要了解的應(yīng)用的原理與實(shí)現(xiàn);
●大數(shù)據(jù)主流框架——介紹了主流的大數(shù)據(jù)框架(Hadoop、Spark和Cassandra);
●系統(tǒng)架構(gòu)與調(diào)優(yōu)——從速度與穩(wěn)定性方面給出調(diào)優(yōu)的一般性“內(nèi)功心法”;
●大數(shù)據(jù)價(jià)值與變現(xiàn)——從運(yùn)營(yíng)指標(biāo)、AB測(cè)試、大數(shù)據(jù)價(jià)值與變現(xiàn)場(chǎng)景多維度解讀。
資深大數(shù)據(jù)專(zhuān)家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),拒絕晦澀,開(kāi)啟大數(shù)據(jù)與機(jī)器學(xué)習(xí)妙趣之旅。以降低學(xué)習(xí)曲線(xiàn)和閱讀難度為宗旨,系統(tǒng)講解統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級(jí)拓展技能,并清晰勾勒出大數(shù)據(jù)技術(shù)路線(xiàn)與產(chǎn)業(yè)藍(lán)圖。
本書(shū)共分18章。用通俗易懂的語(yǔ)言,結(jié)合大量案例與漫畫(huà),不枯燥,實(shí)用、接地氣。
第1~5章,這部分是大數(shù)據(jù)入門(mén)所需的系統(tǒng)性知識(shí),剖析大數(shù)據(jù)產(chǎn)業(yè)、數(shù)據(jù)與信息算法等的關(guān)系,妙解數(shù)學(xué)基礎(chǔ)(排列組合、概率、統(tǒng)計(jì)與分布),以及指標(biāo)化運(yùn)營(yíng)及體系構(gòu)建。這部分補(bǔ)足讀者的產(chǎn)業(yè)與相關(guān)概念認(rèn)知,以及所需的數(shù)學(xué)知識(shí)。為下面的數(shù)據(jù)挖掘算法的理解與應(yīng)用夯實(shí)基礎(chǔ)。
第6~8章,這部分介紹數(shù)據(jù)挖掘基礎(chǔ)知識(shí)與算法,講解了與數(shù)據(jù)息息相關(guān)的信息論,重點(diǎn)講解了:多維向量空間(向量和維度、矩陣及其計(jì)算、上卷和下鉆);
回歸(線(xiàn)性回歸、殘差分析、擬合相關(guān)問(wèn)題);
聚類(lèi)(K-Means算法、有趣模式、孤立點(diǎn)、層次與密度聚類(lèi),聚類(lèi)的評(píng)估等);
分類(lèi)(樸素貝葉斯、決策樹(shù)歸納、隨機(jī)森林、隱馬爾科夫模型、SVM、遺傳算法)。
第11~18章,這部分介紹生產(chǎn)應(yīng)用與高級(jí)擴(kuò)展。其中第11~15章介紹生產(chǎn)應(yīng)用實(shí)踐,涵蓋關(guān)聯(lián)分析、用戶(hù)畫(huà)像、推薦算法、文本挖掘、人工神經(jīng)網(wǎng)絡(luò)。這些也是工業(yè)界和學(xué)術(shù)界研究的熱點(diǎn)。第16章講解了著名的大數(shù)據(jù)框架及其安裝與配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章從速度與穩(wěn)定性維度介紹了大數(shù)據(jù)系統(tǒng)的架構(gòu)與調(diào)優(yōu)。第18章則從數(shù)據(jù)運(yùn)營(yíng)、評(píng)估、展現(xiàn)與變現(xiàn)場(chǎng)景層面進(jìn)行了解讀。
附錄部分給出了大數(shù)據(jù)平臺(tái)運(yùn)行可能需要的軟件和庫(kù),以及群眾如何看待炙手可熱的大數(shù)據(jù)。