Python 中的二項式分佈與真實世界示例 [2022]

已發表: 2021-01-09

概率統計在數據科學領域的價值是巨大的,人工智能和機器學習對它們的依賴程度很高。 每次進行 A/B 測試和投資建模時,我們都使用正態分佈的過程模型。

然而, Python 中的二項分佈以多種方式應用以執行多個過程。 但是,在開始使用Python 中的二項分佈之前,您需要了解一般的二項分佈及其在日常生活中的用途。 如果您是初學者並且有興趣了解有關數據科學的更多信息,請查看我們來自頂尖大學的數據科學培訓。

目錄

什麼是二項分佈

你曾經擲過硬幣嗎? 如果你有,那麼你必須知道正面或反面的概率是相等的。 但是,總共擲十次硬幣得到七次反面的可能性如何呢? 這就是二項式分佈可以幫助計算每次翻轉的結果,從而找出十次擲硬幣得到七個反面的概率。

概率分佈的癥結來自於任何事件的方差。 對於每十次拋硬幣,正面和反面的概率可以在 1 到 10 次之間,同樣且有可能。 結果的不確定性(也稱為方差)有助於生成所產生結果的分佈。

換句話說,二項分佈是一個只有兩種可能結果的過程:真或假。 因此,它在所有事件中具有相同的結果概率,因為每次都執行相同的操作。 只有一個條件……這些步驟需要彼此完全不受影響,結果可能相同也可能不同。

因此,二項分佈的概率函數為:

f f( k k , n n, p p) = P r Pr( k k; n n, p p) = P r Pr ( X X= k k) =

資源

在哪裡,

= n n! k k !( n n!- k k!)

這裡,n = 試驗總數

p = 成功概率

k = 目標成功次數

Python中的二項分佈

對於通過 Python 進行的二項分佈,您可以從 binom.rvs () 函數生成不同的隨機變量,其中“n”定義為試驗的總頻率,“p”等於成功概率。

您還可以使用 loc 函數移動分佈,並且大小定義了在系列中重複的動作的頻率。 添加 random_state 有助於保持可重複性。

資源

Python中二項分佈的真實示例

有更多的事件(比拋硬幣大)可以通過 Python 中的二項分佈來解決。 一些用例可以幫助跟踪和提高大小公司的 ROI(投資回報率)。 這是如何做:

  • 想想一個呼叫中心,每個員工平均每天接到 50 個電話。
  • 每次調用的轉換概率等於 4%。
  • 基於每次此類轉換,公司的平均收入為 20 美元。
  • 如果你分析 100 名這樣的員工,他們每天獲得 200 美元的報酬,那麼

n = 50

p = 4%

該代碼可以生成如下輸出:

  • 每個員工的平均轉化率 = 2.13
  • 每個呼叫中心人員的轉換標準差 = 1.48
  • 總轉化率 = 213
  • 總收入 = 21,300 美元
  • 總費用 = 20,000 美元
  • 毛利潤 = 1,300 美元

二項分佈模型和其他概率分佈只能預測在動作參數“n”和“p”方面可以接近現實世界的近似值。 它有助於我們了解和確定我們的重點領域,並提高獲得更好績效和效率的總體機會。

另請閱讀:初學者的 13 個有趣的數據結構項目想法和主題

接下來是什麼?

如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃,該計劃是為在職專業人士創建的,提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1與行業導師一對一,400 多個小時的學習和頂級公司的工作協助。

離散概率分佈和連續概率分佈有什麼區別?

離散概率分佈或簡單的離散分佈計算可以是離散的隨機變量的概率。 例如,如果我們擲硬幣兩次,表示正面總數量的隨機變量 X 的可能值將是 {0,1,2},而不是任何隨機值。 伯努利、二項式、超幾何是離散概率分佈的一些例子。 另一方面,連續概率分佈提供了可以是任何隨機數的隨機值的概率。 例如,表示城市公民身高的隨機變量 X 的值可以是任何數字,如 161.2、150.9 等。正態、學生 T、卡方是連續分佈的一些示例。

概率在數據科學中的意義是什麼?

由於數據科學就是研究數據,概率在這裡起著關鍵作用。 以下原因描述了概率如何成為數據科學不可或缺的一部分:它幫助分析師和研究人員根據數據集做出預測。 這些估計結果是進一步分析數據的基礎。 在開發機器學習模型中使用的算法時,也會使用概率。 它有助於分析用於訓練模型的數據集。 它允許您量化數據並得出結果,例如導數、均值和分佈。 使用概率獲得的所有結果最終都會匯總數據。 此摘要還有助於識別數據集中現有的異常值。

解釋超幾何分佈。 在什麼情況下傾向於二項分佈?

在沒有任何替代的試驗次數上取得成功。 假設我們有一個裝滿紅球和綠球的袋子,我們必須找出在 5 次嘗試中撿到一個綠球的概率,但是每次我們撿到一個球,我們都不會把它放回袋子裡。 這是超幾何分佈的一個恰當例子。
對於較大的N,超幾何分佈的計算非常困難,但是當N較小時,在這種情況下趨於二項分佈。