Python 中的二項式分佈與真實世界示例 [2022]

已發表: 2021-01-09

概率統計在數據科學領域的價值是巨大的，人工智能和機器學習對它們的依賴程度很高。每次進行 A/B 測試和投資建模時，我們都使用正態分佈的過程模型。

然而， Python 中的二項分佈以多種方式應用以執行多個過程。但是，在開始使用Python 中的二項分佈之前，您需要了解一般的二項分佈及其在日常生活中的用途。如果您是初學者並且有興趣了解有關數據科學的更多信息，請查看我們來自頂尖大學的數據科學培訓。

什麼是二項分佈？

你曾經擲過硬幣嗎？如果你有，那麼你必須知道正面或反面的概率是相等的。但是，總共擲十次硬幣得到七次反面的可能性如何呢？這就是二項式分佈可以幫助計算每次翻轉的結果，從而找出十次擲硬幣得到七個反面的概率。

概率分佈的癥結來自於任何事件的方差。對於每十次拋硬幣，正面和反面的概率可以在 1 到 10 次之間，同樣且有可能。結果的不確定性（也稱為方差）有助於生成所產生結果的分佈。

換句話說，二項分佈是一個只有兩種可能結果的過程：真或假。因此，它在所有事件中具有相同的結果概率，因為每次都執行相同的操作。只有一個條件……這些步驟需要彼此完全不受影響，結果可能相同也可能不同。

因此，二項分佈的概率函數為：

f f( k k , n n, p p) = P r Pr( k k; n n, p p) = P r Pr ( X X= k k) =

資源

在哪裡，

= n n！ k k !( n n!- k k!)

這裡，n = 試驗總數

p = 成功概率

k = 目標成功次數

Python中的二項分佈

對於通過 Python 進行的二項分佈，您可以從 binom.rvs () 函數生成不同的隨機變量，其中“n”定義為試驗的總頻率，“p”等於成功概率。

您還可以使用 loc 函數移動分佈，並且大小定義了在系列中重複的動作的頻率。添加 random_state 有助於保持可重複性。

資源

Python中二項分佈的真實示例

有更多的事件（比拋硬幣大）可以通過 Python 中的二項分佈來解決。一些用例可以幫助跟踪和提高大小公司的 ROI（投資回報率）。這是如何做：

想想一個呼叫中心，每個員工平均每天接到 50 個電話。
每次調用的轉換概率等於 4%。
基於每次此類轉換，公司的平均收入為 20 美元。
如果你分析 100 名這樣的員工，他們每天獲得 200 美元的報酬，那麼

n = 50

p = 4%

該代碼可以生成如下輸出：

每個員工的平均轉化率 = 2.13
每個呼叫中心人員的轉換標準差 = 1.48
總轉化率 = 213
總收入 = 21,300 美元
總費用 = 20,000 美元
毛利潤 = 1,300 美元

二項分佈模型和其他概率分佈只能預測在動作參數“n”和“p”方面可以接近現實世界的近似值。它有助於我們了解和確定我們的重點領域，並提高獲得更好績效和效率的總體機會。

另請閱讀：初學者的 13 個有趣的數據結構項目想法和主題

接下來是什麼？

如果您想了解數據科學，請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃，該計劃是為在職專業人士創建的，提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1與行業導師一對一，400 多個小時的學習和頂級公司的工作協助。

離散概率分佈和連續概率分佈有什麼區別？

離散概率分佈或簡單的離散分佈計算可以是離散的隨機變量的概率。例如，如果我們擲硬幣兩次，表示正面總數量的隨機變量 X 的可能值將是 {0,1,2}，而不是任何隨機值。伯努利、二項式、超幾何是離散概率分佈的一些例子。另一方面，連續概率分佈提供了可以是任何隨機數的隨機值的概率。例如，表示城市公民身高的隨機變量 X 的值可以是任何數字，如 161.2、150.9 等。正態、學生 T、卡方是連續分佈的一些示例。

概率在數據科學中的意義是什麼？

由於數據科學就是研究數據，概率在這裡起著關鍵作用。以下原因描述了概率如何成為數據科學不可或缺的一部分：它幫助分析師和研究人員根據數據集做出預測。這些估計結果是進一步分析數據的基礎。在開發機器學習模型中使用的算法時，也會使用概率。它有助於分析用於訓練模型的數據集。它允許您量化數據並得出結果，例如導數、均值和分佈。使用概率獲得的所有結果最終都會匯總數據。此摘要還有助於識別數據集中現有的異常值。

解釋超幾何分佈。在什麼情況下傾向於二項分佈？

在沒有任何替代的試驗次數上取得成功。假設我們有一個裝滿紅球和綠球的袋子，我們必須找出在 5 次嘗試中撿到一個綠球的概率，但是每次我們撿到一個球，我們都不會把它放回袋子裡。這是超幾何分佈的一個恰當例子。
對於較大的N，超幾何分佈的計算非常困難，但是當N較小時，在這種情況下趨於二項分佈。