Funzione di massa di probabilità: distribuzione discreta e proprietà

Pubblicato: 2021-02-08

Sommario

introduzione

La probabilità è stata un aspetto importante quando si parla di Data Science. Ha svolto un ruolo fondamentale nella vita di analisti di dati e scienziati di dati. I concetti utilizzati nella teoria della probabilità sono un must per le persone nel dominio della scienza dei dati. I metodi statistici utilizzati per fare determinate previsioni si basano sulle teorie della probabilità e della statistica, rendendo così la probabilità una parte cruciale del dominio della scienza dei dati.

La probabilità fornisce informazioni sul verificarsi di un determinato evento sotto alcune ipotesi, ad esempio indica la probabilità che un evento si verifichi. Per rappresentare i diversi valori possibili che una variabile casuale può assumere, utilizziamo la distribuzione di probabilità.

Una variabile casuale può essere definita come i diversi risultati possibili in una determinata situazione. Per illustrare, se viene lanciato un dado, i possibili risultati per questa situazione sono valori che vanno da 1 a 6 che diventano i valori della variabile casuale.

La distribuzione di probabilità può essere di due tipi: – Discreta e Continua. Le distribuzioni discrete sono per le variabili che accettano solo un numero limitato di valori all'interno di un intervallo. Le distribuzioni continue sono per variabili che possono assumere un numero infinito di valori all'interno di un intervallo. In questo articolo, esploreremo di più la distribuzione discreta e successivamente la funzione di massa di probabilità.

Distribuzione discreta

La distribuzione discreta rappresenta le probabilità dei diversi risultati per una variabile casuale discreta. In parole povere, ci consente di comprendere lo schema dei diversi risultati nella variabile casuale. Non è altro che la rappresentazione di tutte le probabilità di una variabile casuale messe insieme.

Per creare una distribuzione di probabilità per una variabile casuale, dobbiamo avere i risultati della variabile casuale insieme alle probabilità associate e quindi possiamo calcolare la sua funzione di distribuzione di probabilità.

Alcuni dei tipi di distribuzioni discrete sono elencati come segue: –

  1. Distribuzione binomiale: – Il numero di risultati in una singola prova può essere solo due (sì o no, successo o fallimento, ecc.). Esempio: – Lancio di una moneta
  2. Distribuzione di Bernoulli: – Una versione speciale della distribuzione binomiale in cui il numero di prove condotte nell'esperimento è sempre uguale a 1.
  3. Distribuzione di Poisson: – Fornisce la probabilità che un evento si verifichi un certo numero di volte in un determinato periodo di tempo. Esempio: – Numero di volte in cui un film verrà trasmesso in streaming il sabato sera.
  4. Distribuzione uniforme: – Questa distribuzione presuppone che la probabilità per tutti i risultati in una variabile casuale sia la stessa. Esempio: – Tirare un dado (poiché tutte le parti hanno la stessa probabilità di apparire).

È possibile fare riferimento a questo collegamento per maggiori dettagli sui tipi di distribuzioni continue e discrete. Per calcolare la probabilità di una variabile casuale con il suo valore uguale a un valore all'interno dell'intervallo, viene utilizzata la funzione di massa di probabilità (PMF). Per ogni distribuzione, la formula della funzione massa di probabilità varia di conseguenza.

Per una maggiore chiarezza sulla funzione di massa di probabilità, esaminiamo un esempio. Supponiamo di dover capire quale delle posizioni in battuta nel cricket ha più probabilità di segnare un secolo all'interno di una squadra, a condizione di avere alcuni dati correlati. Ora, poiché nella squadra possono esserci solo 11 posizioni di gioco, la variabile casuale assumerà valori compresi tra 1 e 11.

La funzione di massa di probabilità, detta anche funzione di densità discreta, ci permetterà di scoprire la probabilità di segnare un secolo per ogni posizione, ovvero P(X=1), P(X=2)….P(X=11). Dopo il calcolo di tutte le probabilità, possiamo calcolare la distribuzione di probabilità di quella variabile casuale.

La formula generale per la funzione massa di probabilità è la seguente: –

P X (x k ) = P(X = x k ) per k = 1,2,…k

dove,

X = variabile casuale discreta.

x k = Possibile valore della variabile casuale.

P = Probabilità della variabile casuale quando è uguale a x k .

Molti si confondono tra la funzione di massa di probabilità (PMF) e la funzione di densità di probabilità (PDF). Per chiarire questo, la funzione massa di probabilità è per le variabili casuali discrete, cioè le variabili che possono assumere un numero limitato di valori all'interno di un intervallo.

La funzione di densità di probabilità viene utilizzata per le variabili casuali continue. cioè le variabili che possono assumere un numero infinito di valori in un intervallo. La funzione di massa di probabilità aiuta nel calcolo delle statistiche generali come media e varianza della distribuzione discreta.

Ottieni la certificazione di data science dalle migliori università del mondo. Unisciti ai nostri programmi Executive PG, Advanced Certificate Program o Masters per accelerare la tua carriera.

Proprietà della funzione di massa di probabilità

  1. Le probabilità di tutti i possibili valori della variabile casuale dovrebbero sommarsi a 1. [ ∑P X (x k ) = 1]
  2. Tutte le probabilità devono essere 0 o maggiori di 0. [P(x k ) ≥ 0]
  3. La probabilità che ogni evento si verifichi varia da 0 a 1. [1 ≥ P(x k ) ≥ 0]

Conclusione

I concetti di probabilità come la funzione di massa della probabilità sono stati molto utili nel dominio della scienza dei dati. Questi concetti potrebbero non essere utilizzati in ogni aspetto di un progetto di data science o anche nell'intero progetto. Ma questo non sminuisce l'importanza della teoria della probabilità in questo dominio.

Le applicazioni della teoria della probabilità hanno fornito grandi risultati non solo nel dominio della scienza dei dati, ma anche in altri domini dell'industria, poiché può aiutare in spunti interessanti e processi decisionali che vale sempre la pena provare.

Questo articolo ha fornito una panoramica dell'importanza della probabilità nel campo della scienza dei dati, ha introdotto i concetti di base della probabilità come la distribuzione di probabilità e la funzione di massa della probabilità. L'articolo si è concentrato principalmente sui termini delle variabili discrete poiché per essi viene utilizzata la funzione di massa di probabilità. Le terminologie utilizzate per le variabili continue sono diverse, ma l'ideologia generale di questi concetti rimane simile a quella spiegata in questo articolo.

In che modo una distribuzione di probabilità discreta è diversa da una distribuzione di probabilità continua?

La distribuzione di probabilità discreta o semplicemente distribuzione discreta calcola le probabilità di una variabile casuale che può essere discreta. Ad esempio, se lanciamo una moneta due volte, i valori probabili di una variabile casuale X che denota il numero totale di teste sarà {0, 1, 2} e non un valore casuale.
Bernoulli, Binomiale, Ipergeometrico sono alcuni esempi di distribuzione di probabilità discreta.
D'altra parte, la distribuzione di probabilità continua fornisce le probabilità di un valore casuale che può essere qualsiasi numero casuale. Ad esempio, il valore di una variabile casuale X che denota l'altezza dei cittadini di una città potrebbe essere qualsiasi numero come 161,2, 150,9, ecc.
Normale, T di Student, Chi-quadrato sono alcuni degli esempi di distribuzione continua.

Spiega la distribuzione ipergeometrica?

La distribuzione ipergeometrica è una distribuzione discreta in cui consideriamo il numero di successi rispetto al numero di prove senza alcuna sostituzione. Un tale tipo di distribuzione è utile nei casi in cui dobbiamo trovare la probabilità di qualcosa senza sostituirla.
Diciamo che abbiamo un sacco pieno di palline rosse e verdi e dobbiamo trovare la probabilità di prendere una pallina verde in 5 tentativi ma ogni volta che prendiamo una pallina, non la rimettiamo nel sacco. Questo è un esempio appropriato della distribuzione ipergeometrica.

Qual è l'importanza della probabilità nella scienza dei dati?

Poiché la scienza dei dati riguarda lo studio dei dati, la probabilità gioca un ruolo chiave qui. I seguenti motivi descrivono come la probabilità sia una parte indispensabile della scienza dei dati:
1. Aiuta analisti e ricercatori a fare previsioni a partire da set di dati. Questi tipi di risultati stimati sono la base per un'ulteriore analisi dei dati.
2. La probabilità viene utilizzata anche durante lo sviluppo di algoritmi utilizzati nei modelli di apprendimento automatico. Aiuta nell'analisi dei set di dati utilizzati per l'addestramento dei modelli.
3. Consente di quantificare i dati e derivare risultati come derivati, media e distribuzione.
4. Tutti i risultati ottenuti utilizzando la probabilità riepilogano infine i dati. Questo riepilogo aiuta anche nell'identificazione dei valori anomali esistenti nei set di dati.