概率質量函數：離散分佈和屬性

已發表: 2021-02-08

介紹

概率一直是數據科學領域的一個重要方面。它在數據分析師和數據科學家的生活中發揮了關鍵作用。概率論中使用的概念對於數據科學領域的人們來說是必須知道的。用於進行某些預測的統計方法基於概率和統計理論，因此使概率成為數據科學領域的重要組成部分。

概率給出了在某些假設下某個事件發生的信息，即它表示事件發生的可能性。為了表示隨機變量可以取的不同可能值，我們使用概率分佈。

隨機變量可以稱為在給定情況下可能出現的不同結果。為了說明，如果擲骰子，那麼這種情況的可能結果是從 1 到 6 的值，這些值成為隨機變量的值。

概率分佈可以有兩種類型： – 離散和連續。離散分佈適用於在一個範圍內僅取有限數量值的變量。連續分佈適用於可以在一個範圍內取無限個值的變量。在本文中，我們將更多地探索離散分佈，然後再探索概率質量函數。

離散分佈

離散分佈表示離散隨機變量的不同結果的概率。簡單來說，它使我們能夠理解隨機變量中不同結果的模式。它只不過是一個隨機變量的所有概率的表示。

要為隨機變量創建概率分佈，我們需要獲得隨機變量的結果及其相關概率，然後我們可以計算其概率分佈函數。

一些類型的離散分佈如下所列： –

二項分佈： – 單個試驗中的結果數量只能是兩個（是或否，成功或失敗等）。示例： – 拋硬幣
伯努利分佈： - 二項分佈的特殊版本，其中實驗中進行的試驗次數始終等於 1。
泊松分佈： – 它提供事件在特定時間段內發生一定次數的概率。示例： – 電影將在星期六晚上播放的次數。
均勻分佈： - 此分佈假設隨機變量中所有結果的概率相同。示例： – 擲骰子（因為所有面出現的概率均等）。

您可以參考此鏈接以獲取有關連續和離散分佈類型的更多詳細信息。為了計算一個隨機變量的概率，其值等於該範圍內的某個值，使用概率質量函數 (PMF)。對於每個分佈，概率質量函數的公式都會相應變化。

為了更清楚地了解概率質量函數，讓我們看一個例子。假設如果我們有一些相關數據，我們必須弄清楚板球中哪個擊球位置更有可能在一個團隊中得分一個世紀。現在由於球隊中只能有 11 個比賽位置，隨機變量將取 1 到 11 之間的值。

概率質量函數，也稱為離散密度函數，可以讓我們找出每個位置得分一個世紀的概率，即 P(X=1)、P(X=2)….P(X=11)。在計算完所有概率之後，我們可以計算該隨機變量的概率分佈。

概率質量函數的一般公式如下：-

P X (x k ) = P(X = x k ) 對於 k = 1,2,…k

在哪裡，

X = 離散隨機變量。

x k = 隨機變量的可能值。

P = 隨機變量等於 x k時的概率。

許多人陷入了概率質量函數 (PMF) 和概率密度函數 (PDF) 之間的混淆。為了澄清這一點，概率質量函數適用於離散隨機變量，即可以在一個範圍內取有限數量值的變量。

概率密度函數用於連續隨機變量。即可以在一個範圍內取無限個值的變量。概率質量函數有助於計算一般統計數據，例如離散分佈的均值和方差。

獲得世界頂尖大學的數據科學認證。 加入我們的行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

概率質量函數的性質

隨機變量所有可能值的概率總和應為 1。 [ ∑P X (x k ) = 1]
所有概率必須是 0 或大於 0。 [P(x k ) ≥ 0]
每個事件發生的概率範圍從 0 到 1。[1 ≥ P(x k ) ≥ 0]

結論

概率質量函數等概率概念在數據科學領域非常有用。這些概念可能不會用於數據科學項目的每個方面，也可能不會用於整個項目。但這並不貶低概率論在這一領域的重要性。

概率論的應用不僅在數據科學領域，而且在行業的其他領域都提供了很好的結果，因為它可以幫助獲得有趣的見解和決策，這總是值得一試。

本文概述了概率在數據科學領域的重要性，介紹了概率分佈和概率質量函數等概率的基本概念。本文主要關注離散變量項，因為它們使用了概率質量函數。用於連續變量的術語不同，但這些概念的整體意識形態與本文中解釋的概念相似。

離散概率分佈與連續概率分佈有何不同？

離散概率分佈或簡單的離散分佈計算可以是離散的隨機變量的概率。例如，如果我們擲硬幣兩次，表示正面總數量的隨機變量 X 的可能值將是 {0,1,2}，而不是任何隨機值。
伯努利、二項式、超幾何是離散概率分佈的一些例子。
另一方面，連續概率分佈提供了可以是任何隨機數的隨機值的概率。例如，表示城市公民身高的隨機變量 X 的值可以是任何數字，例如 161.2、150.9 等。
正態、學生 T、卡方是連續分佈的一些示例。

解釋超幾何分佈？

超幾何分佈是一個離散分佈，我們在沒有任何替換的情況下考慮成功次數超過試驗次數。這種類型的分佈在我們需要找到某事物的概率而不替換它的情況下很有用。
假設我們有一個裝滿紅球和綠球的袋子，我們必須找出在 5 次嘗試中撿到一個綠球的概率，但是每次我們撿到一個球，我們都不會把它放回袋子裡。這是超幾何分佈的一個恰當例子。

概率在數據科學中的重要性是什麼？

由於數據科學就是研究數據，概率在這裡起著關鍵作用。以下原因描述了概率如何成為數據科學不可或缺的一部分：
1. 它幫助分析師和研究人員根據數據集做出預測。這些估計結果是進一步分析數據的基礎。
2. 在開發機器學習模型中使用的算法時也使用概率。它有助於分析用於訓練模型的數據集。
3. 它允許您量化數據並得出結果，例如導數、均值和分佈。
4. 所有使用概率獲得的結果最終都會匯總數據。此摘要還有助於識別數據集中現有的異常值。