機器學習統計:你需要知道的一切

已發表: 2021-03-12

統計和概率是機器學習和數據科學的核心。 機器學習能夠實現今天所取得的成就的正是統計分析加上計算能力和優化。 從概率的基礎到描述性和推理性統計,這些主題構成了機器學習的基礎。

在本教程結束時,您將了解以下內容:

  • 概率基礎
  • 概率分佈
  • 正態分佈
  • 集中趨勢測度
  • 中心極限定理
  • 標準偏差和標準誤差
  • 偏度和峰度

目錄

概率基礎

獨立和從屬事件

讓我們考慮兩個事件,事件 A 和事件 B。當事件 A 發生的概率不取決於事件 B 的發生時,則 A 和 B 是獨立事件。 例如,如果你有 2 個公平的硬幣,那麼兩個硬幣正面朝上的概率都是 0.5。 因此事件是獨立的。

現在考慮一個包含 5 個球的盒子——2 個黑色和 3 個紅色。 先抽到黑球的概率是 2/5。 現在從剩下的 4 個球中再次抽到一個黑球的概率將是 1/4。 在這種情況下,這兩個事件是相互依賴的,因為第二次抽到黑球的概率取決於第一次抽到什麼球。

邊際概率

它是事件的概率,與其他隨機變量的結果無關,例如 P(A) 或 P(B)。

聯合概率

它是兩個不同事件同時發生的概率,即兩個(或更多)同時發生的事件,例如 P(A 和 B) 或 P(A, B)。

條件概率

它是一個(或多個)事件的概率,給定另一個事件的發生,或者換句話說,它是當次要事件 B 為真時事件 A 發生的概率。 例如 P(A 給定 B) 或 P(A | B)。

加入來自世界頂級大學的在線ML 課程- 碩士、高管研究生課程和 ML 和 AI 高級證書課程,以加快您的職業生涯。

概率分佈

概率分佈描述了樣本空間中數據點的分佈。 當從總體中隨機抽樣時,它可以幫助我們了解對某些數據點進行抽樣的概率。 例如,如果人口由學校學生的分數組成,那麼概率分佈將在 X 軸上具有分數,在 Y 軸上具有這些分數的學生人數。 這也稱為直方圖 直方圖是一種離散概率分佈 離散分佈的主要類型有二項分佈、泊松分佈和均勻分佈。

另一方面,對具有連續值的數據進行連續概率分佈。 換句話說,當它可以有一組無限的值時,例如高度、速度、溫度等。連續概率分佈在數據科學和統計分析中具有巨大的用途,可用於檢查特徵重要性、數據分佈、統計測試等。

另請閱讀機器學習背後的數學

正態分佈

最著名的連續分佈是正態分佈,也稱為高斯分佈或“鐘形曲線”。

考慮人的身高的正態分佈。 大多數高度都集中在中間部分,中間部分較高,並逐漸向左右極端降低,這表示隨機獲得該值的概率較低。

這條曲線以它的平均值為中心,可以是高而細的,也可以是短而分散的。 細長的表示我們可以採樣的不同值的數量較少。 並且更分散的曲線表明存在更大範圍的值。 這種價差由其標準偏差定義

標準差越大,您的數據就越分散。 標準偏差只是另一個稱為方差的屬性的數學推導,它定義了數據“變化”的程度。 方差是數據的全部內容,方差是信息。 沒有差異,沒有信息。 正態分佈在統計中起著至關重要的作用——中心極限定理。

集中趨勢測度

中心趨勢度量是我們可以通過採用單個值來總結數據集的方式。 主要有3種趨勢度量:

1.平均值:平均值只是數據/特徵中值的算術平均值或平均值。 所有值的總和除以值的數量得出平均值。 平均值通常是衡量任何數據中心的最常用方法,但在某些情況下可能會產生誤導。 例如,當存在大量異常值時,均值將開始向異常值移動,並成為衡量數據中心的不良指標。

2. 中位數:中位數是數據按升序或降序排序時恰好位於中心的數據點。 當數據點的數量為奇數時,中位數很容易被選為最中心點。 當數據點數為偶數時,中位數計算為 2 個中心最多的數據點的平均值。

3.眾數:眾數是數據集中出現頻率最高的數據點。 該模式對異常值仍然是最穩健的,因為它仍將固定在最頻繁的點。

中心極限定理

統計中的中心極限定理指出,給定足夠大的樣本量,無論該變量的分佈如何,採樣分佈都將接近正態分佈。 讓我用簡單的話來說明上述陳述的精髓。

數據可能具有任何分佈。 它可能是完美的或偏正態的,它可能是指數的或(幾乎)您可能想到的任何分佈。 但是,如果您反復從總體中抽取樣本並不斷繪製其均值的直方圖,您最終會發現所有均值的這種新分佈類似於正態分佈!

從本質上講,無論您的數據處於何種分佈狀態,它們的均值分佈始終是正常的。

但是需要多少樣本才能使 CLT 為真呢? 拇指規則說它應該> 30。 因此,如果您從任何分佈中抽取 30 個或更多樣本,則無論基礎分佈類型如何,均值將呈正態分佈。

標準偏差和標準誤差

標準偏差和標準誤差經常相互混淆。 您可能知道,標準偏差描述或量化了分佈兩側數據的變化——低於平均值和高於平均值。 如果您的數據點分佈在大範圍的值中,則標準偏差會很高。

現在,正如我們上面所討論的,根據中心極限定理,如果我們繪製總體中所有樣本的均值,這些均值的分佈將再次成為正態分佈。 所以它會有自己的標準偏差,對吧?

總體中所有樣本的平均值的標準差稱為標準誤差。 當您計算均值的標準差時,標準誤差的值通常會小於標準差,並且由於聚合,均值的值將小於單個數據點的分佈。

您甚至可以計算中位數的標準差、眾數甚至標準差的標準差!

在你走之前

統計概念構成了數據科學和機器學習的真正核心。 為了能夠做出有效的推論並有效地理解手頭的數據,您需要對本教程中討論的統計和概率概念有深刻的理解。

upGrad 提供機器學習和人工智能的執行 PG 計劃和機器學習和人工智能理學碩士,可以指導您建立職業生涯。 這些課程將解釋機器學習的必要性以及收集該領域知識的進一步步驟,涵蓋從梯度下降到機器學習的各種概念。

要想在機器學習中取得好成績,必須具備統計學知識嗎?

統計學是一個非常廣闊的領域。 在機器學習中,統計學基本上有助於深入理解數據。 一些機器學習算法需要一些統計概念,如概率、數據解釋等。 但是,您不必成為所有統計主題的專家才能在機器學習方面做得很好。 通過僅了解基本概念,您將能夠有效地執行。

事先了解一些編碼對機器學習有幫助嗎?

編碼是機器學習的核心,懂得如何編碼的程序員將對算法的功能有深刻的理解,從而能夠更有效地監控和優化這些算法。 您不需要成為任何編程語言的專家,儘管任何先驗知識都會是有益的。 如果您是初學者,Python 是一個不錯的選擇,因為它易於學習並且具有用戶友好的語法。

我們如何在日常生活中使用微積分?

天氣預報基於許多變量,例如風速、水分含量和溫度,這些變量只能使用微積分來計算。 在航空工程中也可以通過多種方式看到微積分的使用。 汽車行業也使用微積分來改善和確保車輛的良好安全性。 它也被信用卡公司用於支付目的。