如果你想轉(zhuǎn)型數(shù)據(jù)科學(xué)家怎么辦(如果你想轉(zhuǎn)型數(shù)據(jù)科學(xué)家怎么做)
Glassdoor利用其龐大的就業(yè)數(shù)據(jù)和員工反饋對美國25個最佳工作進(jìn)行了排名,其中,數(shù)據(jù)科學(xué)家排名第一。
這項工作的重要性是顯而易見的。毫無疑問,數(shù)據(jù)科學(xué)家所做的事情是不斷變化和發(fā)展的。隨著機(jī)器學(xué)習(xí)變得無處不在,數(shù)據(jù)科學(xué)家將繼續(xù)引領(lǐng)創(chuàng)新和技術(shù)進(jìn)步的浪潮。
雖然編碼技能很重要,但數(shù)據(jù)科學(xué)并不全是軟件工程。他們生活在編碼、統(tǒng)計和批判性思維的交叉點(diǎn)。正如數(shù)據(jù)科學(xué)家JoshWills所說:“數(shù)據(jù)科學(xué)家是程序員中最好的統(tǒng)計學(xué)家,也是統(tǒng)計學(xué)家中最好的程序員?!?/p>
我知道很多軟件工程師想轉(zhuǎn)型為數(shù)據(jù)科學(xué)家,他們盲目地使用機(jī)器學(xué)習(xí)框架TensorFlow或ApacheSpark,而沒有深入了解其背后的統(tǒng)計理論。因此,統(tǒng)計學(xué)習(xí)從統(tǒng)計學(xué)和泛函分析的角度提出了機(jī)器學(xué)習(xí)的理論框架。
為什么要學(xué)統(tǒng)計學(xué)習(xí)?
了解各種技術(shù)背后的想法并了解如何以及何時使用它們非常重要。
首先,要從理解簡單的方法開始,以便把握更復(fù)雜的方法。
其次,準(zhǔn)確地評估一種方法的性能,了解它的工作效果,也很重要。
此外,統(tǒng)計學(xué)習(xí)是令人興奮的研究領(lǐng)域,在科學(xué)、工業(yè)和金融領(lǐng)域有著重要應(yīng)用。
最后,統(tǒng)計學(xué)習(xí)是培養(yǎng)現(xiàn)代數(shù)據(jù)科學(xué)家的基本要素。
屬于統(tǒng)計學(xué)習(xí)領(lǐng)域的問題包括:
確定前列腺癌的危險因素。
記錄的音素根據(jù)對數(shù)周期圖進(jìn)行分類。
根據(jù)人口統(tǒng)計、飲食和臨床測量來預(yù)測某人是否會患心臟病。
定制垃圾郵件檢測系統(tǒng)。
識別手寫郵政編碼中的數(shù)字。
基于組織樣本的癌癥分類。
建立人口普查數(shù)據(jù)中工資和人口變量之間的關(guān)系。
我在大學(xué)最后一個學(xué)期進(jìn)行了一項關(guān)于數(shù)據(jù)挖掘的獨(dú)立研究。內(nèi)容涉及三本書:《IntrotoStatisticalLearning》、《DoingBayesianDataAnalysis》、《TimeSeriesAnalysisandApplications》。我們在貝葉斯分析、馬爾可夫鏈蒙特卡羅、分層建模、監(jiān)督和無監(jiān)督學(xué)習(xí)方面做了很多練習(xí)。這段經(jīng)歷增加了我對數(shù)據(jù)挖掘的興趣,也堅定了我投身這一領(lǐng)域的信心。
最近,我完成了斯坦福大學(xué)的LagunitaStatisticalLearning在線課程,該課程涵蓋了《AnIntroductiontoStatisticalLearning:withApplicationsinR》書中的所有內(nèi)容。它包含的內(nèi)容是我在進(jìn)行獨(dú)立研究時閱讀的內(nèi)容的兩倍。我想分享本書中的10個統(tǒng)計技術(shù),相信任何數(shù)據(jù)科學(xué)家都用得著。
在學(xué)習(xí)使用這10種技術(shù)之前,我想先區(qū)分一下統(tǒng)計學(xué)習(xí)和機(jī)器學(xué)習(xí)。我之前寫過一篇關(guān)于機(jī)器學(xué)習(xí)的廣受好評的文章,所以我相信我有足夠的專業(yè)知識來證明以下內(nèi)容:
機(jī)器學(xué)習(xí)是人工智能的一個子領(lǐng)域。
統(tǒng)計學(xué)習(xí)是統(tǒng)計學(xué)的一個分支。
機(jī)器學(xué)習(xí)更注重大規(guī)模應(yīng)用和預(yù)測的準(zhǔn)確性。
統(tǒng)計學(xué)習(xí)強(qiáng)調(diào)模型及其可解釋性、準(zhǔn)確性和不確定性。
但這種區(qū)別越來越模糊,并且存在很多“交叉”。
機(jī)器學(xué)習(xí)接管商業(yè)!
1.線性回歸
在統(tǒng)計學(xué)中,線性回歸是一種通過擬合自變量和因變量之間的最佳線性關(guān)系來預(yù)測目標(biāo)變量的方法。其過程是給定一個點(diǎn)集,并用函數(shù)擬合該點(diǎn)集,以最小化點(diǎn)集與擬合函數(shù)之間的誤差。所謂“最佳”線性關(guān)系是指在給定形狀的情況下,沒有其他位置會產(chǎn)生更小的誤差。
線性回歸的兩種主要類型是簡單線性回歸和多元線性回歸。簡單線性回歸使用自變量通過擬合最佳線性關(guān)系來預(yù)測因變量。多元線性回歸使用多個自變量通過擬合最佳線性關(guān)系來預(yù)測因變量。
示例:選擇與日常生活相關(guān)的任何內(nèi)容,例如過去三年的每月支出、每月收入和每月旅行?,F(xiàn)在回答以下問題:
明年我每月的開支是多少?
哪個因素(月收入或月出行次數(shù))在確定我的月支出時更重要?
每月收入和旅行次數(shù)與每月支出有何關(guān)系?
2.分類
分類是一種數(shù)據(jù)挖掘技術(shù),可為數(shù)據(jù)集合分配類別,以幫助更準(zhǔn)確的預(yù)測和分析。分類,有時稱為決策樹,是一種用于分析大型數(shù)據(jù)集有效性的方法。兩種主要的分類技術(shù)是邏輯回歸和判別分析。
邏輯回歸是當(dāng)因變量是二元時進(jìn)行的適當(dāng)回歸分析。像所有回歸分析一樣,邏輯回歸分析是一種預(yù)測分析。邏輯回歸用于描述數(shù)據(jù),并解釋二元因變量與一個或多個描述事物特征的自變量之間的關(guān)系。邏輯回歸可以檢驗的問題類型包括:
超重后每天每增加一磅和一包煙草,患肺癌的可能性(是與否)有何變化?
參與者的體重、卡路里攝入量、脂肪攝入量和年齡是否與心臟病發(fā)作有關(guān)?
判別分析中,有兩個或兩個以上群集是已知的,新的觀測值根據(jù)特征,歸入已知群集。判別分析對類別中X的分布進(jìn)行建模,然后使用貝葉斯定理轉(zhuǎn)換為對應(yīng)概率。判別分析包括以下兩種類型。
線性判別分析(LDA):計算每一項觀測結(jié)果的“判別分?jǐn)?shù)”,對其所處的響應(yīng)變量類別進(jìn)行分類。這些分?jǐn)?shù)是通過尋找自變量的線性組合得到的。它假設(shè)每類中的觀測結(jié)果來自于一個多變量高斯分布,而預(yù)測變量的協(xié)方差在響應(yīng)變量Y的所有k級別都是通用的。
二次判別分析(QDA):提供了一種替代方法。和LDA一樣,QDA假設(shè)每一類中Y的觀測結(jié)果都來自于高斯分布。然而,與LDA不同,QDA假設(shè)每個類別都有自己的協(xié)方差矩陣。換句話說,預(yù)測變量在Y中的每個k級別都沒有共同的方差。
3.重采樣方法
重采樣是指從原始數(shù)據(jù)樣本中提取重復(fù)樣本的方法。這是一種非參數(shù)統(tǒng)計推斷方法。換句話說,重采樣不使用通用分布來計算近似的p概率值。
重采樣根據(jù)實(shí)際數(shù)據(jù)生成唯一的采樣分布。它使用實(shí)驗方法而不是分析方法來產(chǎn)生獨(dú)特的抽樣分布。它根據(jù)研究人員正在研究的數(shù)據(jù)的所有可能結(jié)果的無偏樣本生成無偏估計。為了理解重采樣的概念,您應(yīng)該首先理解術(shù)語引導(dǎo)和交叉驗證。
Bootstrapping(自舉)可以幫助你在很多情況下驗證預(yù)測模型的性能、集成方法,估計模型的偏差和方差。它通過對原始數(shù)據(jù)進(jìn)行有放回取樣,進(jìn)行數(shù)據(jù)采樣,并將“未選擇”的數(shù)據(jù)點(diǎn)作為測試用例。我們可以多做幾次,計算出平均分,作為模型性能的估值。
交叉驗證是驗證模型性能的一種技術(shù),它把訓(xùn)練數(shù)據(jù)分成k個部分,以k1部分作為訓(xùn)練集,其余部分作為測試集。依次重復(fù),重復(fù)k次。最后,將k次分?jǐn)?shù)的平均值作為模型性能的估值。
通常,對于線性模型,普通最小二乘法是擬合數(shù)據(jù)的主要標(biāo)準(zhǔn)。接下來的3種方法,可以為線性模型的擬合提供更好的預(yù)測精度和模型可解釋性。
4.子集選擇
該方法選擇我們認(rèn)為可以解決問題的預(yù)測變量p的子集,然后使用子集特征和最小二乘法擬合模型。
最佳子集選擇:我們對每種可能的p預(yù)測因子組合進(jìn)行OLS回歸,然后查看最終的模型擬合。
該算法分為2個階段:
(1)擬合包含k個預(yù)測變量的所有模型,其中k是模型的最大長度。
(2)使用交叉驗證的預(yù)測誤差選擇單個模型。
由于RSS和R^2隨著變量的增加而單調(diào)增加,因此使用驗證或測試誤差(而不是訓(xùn)練誤差)來評估模型的擬合度非常重要。最好的方法是選擇具有最高R^2和最低RSS的模型,進(jìn)行交叉驗證。
向前逐步選擇:建一個模型,里面不含預(yù)測因子,然后逐個添加,直到所有預(yù)測因子都在模型中。添加因子的順序是可變的,根據(jù)不同變量對模型性能提升程度來確定,添加變量,直到預(yù)測因子不能在交叉驗證誤差中改進(jìn)模型。
向后逐步選擇:將所有預(yù)測因子p納入模型,迭代刪除沒有用的預(yù)測因子,一次刪一個。
混合方法:遵循向前逐步選擇的方法,但是,在添加新變量之后,還可以去除對模型擬合沒有用的變量。
5.收縮
該方法適用于所有預(yù)測變量p的建模,但是,相對于最小二乘估計,其估計的系數(shù)趨于零。這種收縮也稱為正則化,具有減少方差和防止模型過度擬合的作用。根據(jù)所執(zhí)行的收縮類型,某些系數(shù)可能估計為零。因此,該方法還進(jìn)行了變量選擇。兩種最著名的收縮系數(shù)方法是嶺回歸和套索回歸。
嶺回歸類似最小二乘法,不過它通過最小化一個不同的量來估計系數(shù)。像OLS一樣,嶺回歸尋求降低RSS的系數(shù)估計,但是當(dāng)系數(shù)接近于零時,它們也會有收縮懲罰。這個懲罰的作用是將系數(shù)估計收縮到零。不使用數(shù)學(xué)計算,我們就可以知道,嶺回歸會將特征縮小到最小空間。就像主成分分析,嶺回歸將數(shù)據(jù)轉(zhuǎn)換到低維空間,然后收縮系數(shù)空間內(nèi)較低方差的成分,保留較高方差的成分。
嶺回歸至少有一個缺點(diǎn),它包括最終模型中的所有預(yù)測變量p。收縮懲罰將使其中許多接近于零,但永遠(yuǎn)不會等于零。這對于預(yù)測準(zhǔn)確性來說不是問題,但它會使模型難以解釋。
套索回歸則克服了這個缺點(diǎn),能夠迫使一些系數(shù)歸零,只要s足夠小。由于s=1會產(chǎn)生正規(guī)的OLS回歸,而當(dāng)s接近0時,系數(shù)收縮為零。因此,套索回歸也執(zhí)行變量選擇。
6.降維
降維算法將p+1個系數(shù)的問題簡化為M+1個系數(shù)的簡單問題,其中Mp是通過計算變量的M個不同線性組合或投影而獲得的。然后將這些M投影用作預(yù)測器來預(yù)測最小二乘擬合線性回歸模型。用于此任務(wù)的兩種方法是主成分回歸和偏最小二乘法。
主成分回歸(PCR)是從大量變量中導(dǎo)出低維特征集合的方法。數(shù)據(jù)的第一主成分方向是觀測數(shù)據(jù)變化最大的方向。換句話說,第一主成分是最接近擬合數(shù)據(jù)的線,可以適合p個不同的主成分?jǐn)M合。第二主成分是與第一主成分不相關(guān)的變量的線性組合,并且在該約束下有最大方差。其思想是,主成分利用各個互相垂直方向上的數(shù)據(jù)的線性組合,捕捉數(shù)據(jù)中最大的方差。這樣,我們還可以結(jié)合相關(guān)變量的影響,從可用的數(shù)據(jù)中獲得更多的信息,而在常規(guī)的最小二乘法中,我們必須拋棄一個相關(guān)的變量。
PCR方法需要提取最能代表預(yù)測變量的X的線性組合。這些組合(方向)是以無監(jiān)督的方式提取的,因為X對應(yīng)的Y無法確定主成分的方向。也就是說,Y不監(jiān)督主成分的提取,因此最能解釋預(yù)測變量的方向不一定是預(yù)測輸出的最佳方向(即使經(jīng)常假設(shè))。
偏最小二乘法(PLS)是PCR的一種替代方法。與PCR一樣,PLS是一種降維方法,它首先識別一組新的較小的特征,這些特征是原始特征的線性組合,然后通過最小二乘法擬合一個線性模型,具備新的M個特征。然而,與PCR不同的是,PLS利用Y變量來識別新的特征。
7.非線性模型
在統(tǒng)計學(xué)中,非線性回歸是回歸分析的一種形式,其中觀測數(shù)據(jù)通過函數(shù)建模,該函數(shù)是模型參數(shù)的非線性組合,并且取決于一個或多個自變量。數(shù)據(jù)采用逐次逼近法進(jìn)行擬合。以下是使用非線性模型的一些重要技巧。
階躍函數(shù)的變量是實(shí)數(shù),它可以寫成區(qū)間的指示函數(shù)的有限線性組合。非正式地說,一個階躍函數(shù)是一個分段常數(shù)函數(shù),它只有有限的幾個部分。
分段函數(shù)是由多個子函數(shù)定義的函數(shù),每個子函數(shù)應(yīng)用于主函數(shù)域的某個區(qū)間。分段實(shí)際上是一種表達(dá)函數(shù)的方式,不是函數(shù)本身的特性,而是附加的限定條件,它可以描述函數(shù)的性質(zhì)。例如,分段多項式函數(shù)是,在每個子域上,函數(shù)都是多項式函數(shù),并且每個多項式都是不同的。
樣條曲線是由多項式定義分段的特殊函數(shù)。在計算機(jī)圖形學(xué)中,樣條曲線是指一個分段多項式參數(shù)曲線。由于其結(jié)構(gòu)簡單、評估簡單、精度高,以及通過曲線擬合和交互曲線設(shè)計近似復(fù)雜形狀的能力,樣條曲線是很受歡迎的曲線。
廣義加性模型是一種廣義線性模型,其中線性預(yù)測因子線性地依賴于某些預(yù)測變量的未知平滑函數(shù),它的作用就是推測這些平滑函數(shù)。
8.基于樹的方法
基于樹的方法可用于回歸和分類問題,包括將預(yù)測空間劃分為簡單區(qū)域。由于用于分割預(yù)測空間的分割規(guī)則集可以概括為樹,因此這些類型的方法稱為決策樹方法。下面的方法是幾種不同的樹,可以將它們組合起來輸出單個共識預(yù)測。
Bagging(套袋)是一種減少預(yù)測方差的方法,通過從原始數(shù)據(jù)集生成額外的數(shù)據(jù),重復(fù)組合,生成訓(xùn)練數(shù)據(jù)。通過增加訓(xùn)練集的大小,你不能提高模型的預(yù)測力,只是減小方差,將預(yù)測精確地調(diào)整到預(yù)期結(jié)果。
Boost(提升)是一種使用幾種不同模型計算輸出的方法,然后使用加權(quán)平均方法計算結(jié)果。結(jié)合這些方法的優(yōu)點(diǎn)和缺陷,通過改變加權(quán)公式,你可以使用不同的模型,為更大范圍的輸入數(shù)據(jù)提供良好的預(yù)測力。
隨機(jī)森林算法非常類似于Bagging(套袋)。在這里,你可以繪制隨機(jī)的自舉樣本。然而,除了自舉樣本之外,你還可以繪制一個隨機(jī)的子集,訓(xùn)練單獨(dú)的樹。由于隨機(jī)特征選擇,與常規(guī)的Bagging(套袋)相比,每個樹更獨(dú)立,這通常會獲取更好的預(yù)測性能(由于更好的方差-偏置權(quán)衡),而且速度更快,因為每一個樹只從特征子集中學(xué)習(xí)。
9.支持向量機(jī)
支持向量機(jī)是機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)模型下的一項技術(shù)。通俗地說,就是找到一個分隔兩類點(diǎn)集(二維空間中的線、三維空間中的面、高維空間中的超平面)的超平面。本質(zhì)上,這是一個約束優(yōu)化問題,其中在完美分類數(shù)據(jù)的約束(硬邊界)下裕度最大化。
“支持”超平面的數(shù)據(jù)點(diǎn)稱為“支持向量”。在上圖中,藍(lán)色實(shí)心圓圈和兩個實(shí)心正方形是支持向量。對于兩種類型的數(shù)據(jù)不可線性分離的情況,將點(diǎn)投影到分解(高維)空間中,并且線性分離成為可能。涉及多個類的問題可以分解為多個一對一,或者一對一的剩余二元分類問題。
10.無監(jiān)督學(xué)習(xí)
到目前為止,我們只討論了監(jiān)督學(xué)習(xí)技術(shù),其中數(shù)據(jù)類別已知,為算法提供的經(jīng)驗是實(shí)體與其所屬組之間的關(guān)系。當(dāng)數(shù)據(jù)類別未知時,可以使用另一組技術(shù)。在算法學(xué)習(xí)中,它們被稱為無監(jiān)督,并要求您在提供的數(shù)據(jù)中找到模式。聚類是無監(jiān)督學(xué)習(xí)的一個例子,其中不同的數(shù)據(jù)集被集中到一組密切相關(guān)的項目中。以下是最廣泛使用的無監(jiān)督學(xué)習(xí)算法。
主成分分析:通過識別一組具有最大方差且互不相關(guān)的特征的線性組合,從而產(chǎn)生數(shù)據(jù)集的低維表示。這種線性降維技術(shù)有助于理解無監(jiān)督環(huán)境中變量之間潛在的相互作用。
k-均值聚類:根據(jù)數(shù)據(jù)到集群中心的距離將數(shù)據(jù)劃分成k個不同的集群。
層次聚類:通過創(chuàng)建集群樹構(gòu)建多層次的集群。
這是對一些基本的統(tǒng)計技術(shù)的簡單總結(jié)。這些技術(shù)可以幫助數(shù)據(jù)科學(xué)項目經(jīng)理和主管,更好地了解他們的數(shù)據(jù)科學(xué)團(tuán)隊每天都在做什么。事實(shí)上,一些數(shù)據(jù)科學(xué)團(tuán)隊純粹是通過python和R來運(yùn)行算法的。他們中的大多數(shù)人甚至不需要考慮底層的數(shù)學(xué)問題。但是,能夠理解統(tǒng)計分析的基礎(chǔ),可以讓團(tuán)隊有更好的方法,對于細(xì)節(jié)有更深入的了解,便于操作和進(jìn)行抽象思維。我希望這個基礎(chǔ)數(shù)據(jù)科學(xué)統(tǒng)計指南,能給你帶來不錯的理解方式!
相關(guān)資訊
- 哥大教授長文質(zhì)疑自家數(shù)據(jù)造假是真的嗎(哥大教授征婚)
- 數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)主要是關(guān)于什么的學(xué)科(數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)的專業(yè)介紹)
- 數(shù)據(jù)結(jié)構(gòu)期中考試題及答案(數(shù)據(jù)結(jié)構(gòu)期中考試知識點(diǎn))
- 河南中考建檔線是多少分(河南中考建檔線是什么意思)
- 呼和浩特中考分?jǐn)?shù)線預(yù)測(呼和浩特中考分?jǐn)?shù)線2021年公布時間)
- 安徽二本大學(xué)錄取分?jǐn)?shù)線預(yù)測(2021年安徽二本大學(xué)投檔線)
- 中考物理計算預(yù)測題型十一題(中考物理計算預(yù)測題型十一年級)
- 成都大數(shù)據(jù)分析培訓(xùn)課程(成都大數(shù)據(jù)分析培訓(xùn)學(xué)校)