網(wǎng)站導(dǎo)航

數(shù)據(jù)分析師如何使用統(tǒng)計(jì)數(shù)據(jù)？

數(shù)據(jù)分析師

數(shù)據(jù)分析師是數(shù)據(jù)師Datician['det???n]的一種，指的是不同行業(yè)中，專門從事行業(yè)數(shù)據(jù)搜集、整理、分析，并依據(jù)數(shù)據(jù)做出行業(yè)研究、評(píng)估和預(yù)測(cè)的專業(yè)人員。

為什么要學(xué)習(xí)統(tǒng)計(jì)學(xué)？

因?yàn)榱私飧鞣N技術(shù)背后的想法是非常重要的，以便知道如何以及何時(shí)使用它們。此外，這是一個(gè)非常有前景的研究領(lǐng)域，在科學(xué)，工業(yè)和金融領(lǐng)域有著重要的應(yīng)用，而且統(tǒng)計(jì)學(xué)是培養(yǎng)現(xiàn)代數(shù)據(jù)科學(xué)家的基本要素。

統(tǒng)計(jì)學(xué)應(yīng)用的經(jīng)典例子包括以下這些：

確定前列腺癌的危險(xiǎn)因素。
根據(jù)記錄周期圖對(duì)錄制的音素進(jìn)行分類。
根據(jù)人口統(tǒng)計(jì)，飲食和臨床測(cè)量預(yù)測(cè)是否有人會(huì)發(fā)生心臟病。
自定義垃圾郵件檢測(cè)系統(tǒng)。
識(shí)別手寫郵政編碼中的數(shù)字。
將組織樣本分為幾個(gè)癌癥類別之一。

建立人口調(diào)查數(shù)據(jù)中工資與人口變量之間的關(guān)系。

本篇文章分享《統(tǒng)計(jì)學(xué)入門》一書中的10個(gè)統(tǒng)計(jì)方法，任何數(shù)據(jù)科學(xué)家都應(yīng)該學(xué)會(huì)更有效地處理大數(shù)據(jù)集。由于篇幅原因，這次先介紹前5個(gè)，下篇文章再介紹剩下的。

在使用這10種方法之前，大家要區(qū)分“統(tǒng)計(jì)學(xué)習(xí)”和“機(jī)器學(xué)習(xí)”：

機(jī)器學(xué)習(xí)是人工智能的一個(gè)子領(lǐng)域。
統(tǒng)計(jì)學(xué)習(xí)是統(tǒng)計(jì)學(xué)的一個(gè)分支。
機(jī)器學(xué)習(xí)更強(qiáng)調(diào)大規(guī)模應(yīng)用和預(yù)測(cè)的準(zhǔn)確性。
統(tǒng)計(jì)學(xué)習(xí)強(qiáng)調(diào)模型及其可解釋性，精確性和不確定性。
但是這種區(qū)別變得越來(lái)越模糊，并且存在著很多“交叉”。
機(jī)器學(xué)習(xí)在市場(chǎng)營(yíng)銷中占據(jù)上風(fēng)！

1、線性回歸（LinearRegression）

在統(tǒng)計(jì)學(xué)中，線性回歸是一種通過(guò)擬合自變量與自變量之間最佳線性關(guān)系來(lái)預(yù)測(cè)目標(biāo)變量的方法。最好的做法是確保每個(gè)點(diǎn)的形狀和實(shí)際觀測(cè)之間的所有距離之和盡可能小。形狀的適合性是“最好的”，因?yàn)樵谛螤畹倪x擇上沒(méi)有其他位置會(huì)產(chǎn)生較少的誤差。線性回歸的2種主要類型是簡(jiǎn)單線性回歸和多元線性回歸。簡(jiǎn)單線性回歸使用一個(gè)獨(dú)立變量來(lái)通過(guò)擬合最佳線性關(guān)系來(lái)預(yù)測(cè)因變量。多重線性回歸使用多個(gè)獨(dú)立變量來(lái)通過(guò)擬合最佳線性關(guān)系來(lái)預(yù)測(cè)因變量。

舉個(gè)例子：選擇你在日常生活中使用的任何兩件相關(guān)的東西，例如每月支出，月收入和過(guò)去三年每月的旅行次數(shù)的數(shù)據(jù)。現(xiàn)在回答以下問(wèn)題：

明年的每月開(kāi)支是多少？

哪個(gè)因素（每月收入或每月旅行次數(shù)）在決定我的每月支出時(shí)更重要？
月收入和每月旅行如何與每月支出相關(guān)？

2、分類（Classification）

分類是一種數(shù)據(jù)挖掘技術(shù)，它將類別分配給數(shù)據(jù)集合，以幫助進(jìn)行更準(zhǔn)確的預(yù)測(cè)和分析。也有時(shí)稱為決策樹，分類是用于對(duì)非常大的數(shù)據(jù)集進(jìn)行分析的幾種方法之一。2大分類技術(shù)脫穎而出：Logistic回歸和判別分析。

Logistic回歸分析是當(dāng)因變量是二分的（二元）時(shí)進(jìn)行的適當(dāng)?shù)幕貧w分析。像所有回歸分析一樣，邏輯回歸是預(yù)測(cè)分析。Logistic回歸用于描述數(shù)據(jù)并解釋一個(gè)相關(guān)二元變量與一個(gè)或多個(gè)名義，序數(shù)，區(qū)間或比例級(jí)別的獨(dú)立變量之間的關(guān)系。邏輯回歸可以檢查的問(wèn)題類型：

體重每增加一磅和每天吸一包香煙，肺癌的可能性（是vs否）會(huì)發(fā)生怎樣的變化？
體重卡路里攝入量，脂肪攝入量和參與者年齡對(duì)心臟病發(fā)作有何影響（有vs無(wú)）？

在判別分析中，先驗(yàn)已知2個(gè)或更多個(gè)組或群或群，并基于所測(cè)量的特征將1個(gè)或更多個(gè)新觀察分類到1個(gè)已知群中。判別分析在每個(gè)響應(yīng)類別中分別對(duì)預(yù)測(cè)變量X的分布進(jìn)行建模，然后使用貝葉斯定理將它們翻轉(zhuǎn)為給定X的值的響應(yīng)類別概率的估計(jì)。這樣的模型可以是線性的或二次的。

線性判別分析為每個(gè)觀測(cè)值計(jì)算“判別分?jǐn)?shù)”，以便對(duì)它所處的響應(yīng)變量類別進(jìn)行分類。這些分?jǐn)?shù)是通過(guò)尋找自變量的線性組合得到的。它假設(shè)每個(gè)類別內(nèi)的觀察值都來(lái)自多變量高斯分布，預(yù)測(cè)變量的協(xié)方差在響應(yīng)變量Y的所有k個(gè)水平上是共同的。

二次判別分析提供了一種替代方法。和LDA一樣，QDA假定每個(gè)Y類的觀測(cè)值都是從高斯分布中得到的。但是，與LDA不同的是，QDA假定每個(gè)類都有其自己的協(xié)方差矩陣。換句話說(shuō)，預(yù)測(cè)變量不被假定在Y中的每個(gè)k個(gè)水平上具有共同的方差。

3、重采樣方法（ResamplingMethods）

重采樣是從原始數(shù)據(jù)樣本中繪制重復(fù)樣本的方法。這是統(tǒng)計(jì)推斷的非參數(shù)方法。換句話說(shuō)，重采樣方法不涉及使用通用分布表來(lái)計(jì)算近似p個(gè)概率值。

重采樣根據(jù)實(shí)際數(shù)據(jù)生成唯一的采樣分布。它使用實(shí)驗(yàn)方法而不是分析方法來(lái)生成獨(dú)特的抽樣分布。它產(chǎn)生無(wú)偏估計(jì)，因?yàn)樗腔谘芯空咚芯繑?shù)據(jù)的所有可能結(jié)果的無(wú)偏樣本。為了理解重采樣的概念，您應(yīng)該理解術(shù)語(yǔ)拔靴法（Bootstrapping）和交叉驗(yàn)證（Cross-Validation）：

拔靴法是一種技術(shù)，可以幫助您在很多情況下驗(yàn)證預(yù)測(cè)模型的性能、集成方法、估計(jì)模型的偏差和方差。它通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行替換進(jìn)行采樣，并將“未選擇”的數(shù)據(jù)點(diǎn)作為測(cè)試用例。我們可以多做幾次，并計(jì)算平均分作為我們的模型性能的估計(jì)。

另一方面，交叉驗(yàn)證是驗(yàn)證模型性能的一種技術(shù)，它是通過(guò)將訓(xùn)練數(shù)據(jù)分成k個(gè)部分來(lái)完成的。我們以k-1部分作為訓(xùn)練集，并使用“伸出部分”作為我們的測(cè)試集。我們重復(fù)k次不同的方式。最后，我們將k分?jǐn)?shù)的平均值作為我們的業(yè)績(jī)估計(jì)。

通常對(duì)于線性模型來(lái)說(shuō)，普通最小二乘法是要考慮將其納入數(shù)據(jù)的主要標(biāo)準(zhǔn)。接下來(lái)的3種方法是可以為線性模型的擬合提供更好的預(yù)測(cè)精度和模型可解釋性的替代方法。

4、子集選擇（SubsetSelection）

這種方法確定了我們認(rèn)為與響應(yīng)相關(guān)的p個(gè)預(yù)測(cè)因子的一個(gè)子集。然后，我們使用子集特征的最小二乘擬合模型。

最佳子集選擇：這里我們對(duì)每個(gè)可能的p個(gè)預(yù)測(cè)子組合進(jìn)行單獨(dú)的OLS回歸擬合，然后查看最終的模型擬合。該算法分為2個(gè)階段：（1）擬合所有包含k個(gè)預(yù)測(cè)變量的模型，其中k是模型的最大長(zhǎng)度;（2）使用交叉驗(yàn)證的預(yù)測(cè)誤差選擇單個(gè)模型。使用測(cè)試或驗(yàn)證錯(cuò)誤非常重要，而不是訓(xùn)練錯(cuò)誤來(lái)評(píng)估模型擬合，因?yàn)镽SS和R2單調(diào)增加更多的變量。最好的方法是在測(cè)試誤差估計(jì)值上交叉驗(yàn)證并選擇具有最高R2和最低RSS的模型。
向前逐步選擇考慮p個(gè)預(yù)測(cè)因子的更小的子集。它從不含預(yù)測(cè)變量的模型開(kāi)始，然后在模型中添加預(yù)測(cè)變量，直到所有預(yù)測(cè)變量都在模型中。被添加的變量的順序是變量，其給出對(duì)擬合的最大的加法改進(jìn)，直到?jīng)]有更多的變量使用交叉驗(yàn)證的預(yù)測(cè)誤差來(lái)改進(jìn)模型擬合。
向后逐步選擇開(kāi)始將模型中的所有預(yù)測(cè)變量，然后迭代去除最不有用的預(yù)測(cè)變量。
混合方法遵循前向逐步方法，但是，在添加每個(gè)新變量之后，該方法還可以移除對(duì)模型擬合沒(méi)有貢獻(xiàn)的變量。

5、特征縮減技術(shù)（Shrinkage）

這種方法適合一個(gè)涉及所有p個(gè)預(yù)測(cè)因子的模型，然而，估計(jì)的系數(shù)相對(duì)于最小二乘估計(jì)向零收縮。這種縮水，又稱正規(guī)化，具有減少方差的作用。取決于執(zhí)行什么類型的收縮，可以估計(jì)一些系數(shù)恰好為零。因此這個(gè)方法也執(zhí)行變量選擇。將系數(shù)估計(jì)收縮為零的兩個(gè)最著名的技術(shù)是嶺回歸（ridgeregression）和lasso回歸。

嶺回歸類似于最小二乘，除了通過(guò)最小化一個(gè)稍微不同的數(shù)量估計(jì)系數(shù)。像OLS一樣，嶺回歸尋求減少RSS的系數(shù)估計(jì)，然而當(dāng)系數(shù)接近于零時(shí)，它們也會(huì)有收縮懲罰。這個(gè)懲罰的作用是將系數(shù)估計(jì)收縮到零。不用進(jìn)入數(shù)學(xué)計(jì)算，知道嶺回歸縮小列空間方差最小的特征是有用的。像在主成分分析中一樣，嶺回歸將數(shù)據(jù)投影到雙向空間，然后比高方差分量收縮低方差分量的系數(shù)，這相當(dāng)于最大和最小主分量。
嶺回歸至少有一個(gè)缺點(diǎn);它包括最終模型中的所有p個(gè)預(yù)測(cè)值。罰款期限將使他們中的許多接近于零，但從未完全為零。這對(duì)于預(yù)測(cè)準(zhǔn)確性來(lái)說(shuō)通常不是問(wèn)題，但它可能使模型更難以解釋結(jié)果。Lasso回歸克服了這個(gè)缺點(diǎn)，并且能夠迫使一些系數(shù)歸零，只要s足夠小。由于s=1導(dǎo)致有規(guī)律的OLS回歸，當(dāng)s接近0時(shí)，系數(shù)收縮為零。因此，Lasso回歸也執(zhí)行變量選擇。

上一篇和女生聊天，有什么實(shí)用的開(kāi)場(chǎng)白？

下一篇律師對(duì)當(dāng)事人作用是什么？對(duì)法官有什么好處？

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

數(shù)據(jù)分析師如何使用統(tǒng)計(jì)數(shù)據(jù)？