Funcția de masă de probabilitate: distribuție discretă și proprietăți

Publicat: 2021-02-08

Cuprins

Introducere

Probabilitatea a fost un aspect important când vine vorba de domeniul științei datelor. A jucat un rol esențial în viața analiștilor de date și a oamenilor de știință ai datelor. Conceptele utilizate în teoria probabilității sunt un lucru obligatoriu pentru oamenii din domeniul Științei datelor. Metodele statistice utilizate pentru a face anumite predicții se bazează pe teoriile probabilității și statisticii, făcând astfel probabilitatea o parte crucială a domeniului științei datelor.

Probabilitatea oferă informații despre producerea unui anumit eveniment în baza unor ipoteze, adică indică probabilitatea ca un eveniment să se producă. Pentru a reprezenta diferitele valori posibile pe care le poate lua o variabilă aleatoare, folosim distribuția probabilității.

O variabilă aleatorie poate fi denumită diferite rezultate care sunt posibile într-o situație dată. Pentru a ilustra, dacă un zar este aruncat, atunci rezultatele posibile pentru această situație sunt valori cuprinse între 1 și 6, care devin valorile variabilei aleatoare.

Distribuția probabilității poate fi de două tipuri: – discretă și continuă. Distribuțiile discrete sunt pentru variabilele care iau doar un număr limitat de valori într-un interval. Distribuțiile continue sunt pentru variabile care pot lua un număr infinit de valori într-un interval. În acest articol, vom explora mai mult distribuția discretă și, mai târziu, funcția de masă a probabilității.

Distribuție discretă

Distribuția discretă reprezintă probabilitățile diferitelor rezultate pentru o variabilă aleatorie discretă. În termeni simpli, ne permite să înțelegem modelul diferitelor rezultate în variabila aleatoare. Nu este altceva decât reprezentarea tuturor probabilităților unei variabile aleatorii puse împreună.

Pentru a crea o distribuție de probabilitate pentru o variabilă aleatoare, trebuie să avem rezultatele variabilei aleatoare împreună cu probabilitățile asociate acesteia și apoi putem calcula funcția de distribuție a probabilității.

Unele dintre tipurile de distribuții discrete sunt enumerate după cum urmează:

  1. Distribuție binomială: – Numărul de rezultate dintr-o singură încercare poate fi doar două (da sau nu, succes sau eșec etc.). Exemplu: – Aruncarea unei monede
  2. Distribuția lui Bernoulli: – O versiune specială a distribuției binomiale în care numărul de încercări efectuate în experiment este întotdeauna egal cu 1.
  3. Distribuția Poisson: – Oferă probabilitatea ca un eveniment să se producă de un anumit număr de ori într-o anumită perioadă de timp. Exemplu: – De câte ori va fi difuzat un film într-o seară de sâmbătă.
  4. Distribuție uniformă: – Această distribuție presupune că probabilitatea pentru toate rezultatele dintr-o variabilă aleatorie este aceeași. Exemplu: – Lansarea unui zar (deoarece toate părțile au o probabilitate egală de a apărea).

Puteți consulta acest link pentru mai multe detalii despre tipurile de distribuții continue și discrete. Pentru a calcula probabilitatea unei variabile aleatoare cu valoarea ei egală cu o anumită valoare din interval, se utilizează funcția de masă a probabilității (PMF). Pentru fiecare distribuție, formula funcției de masă a probabilității variază în mod corespunzător.

Pentru o mai bună claritate asupra funcției de masă a probabilității, să trecem printr-un exemplu. Să presupunem că trebuie să ne dăm seama care dintre pozițiile de bataie în cricket are mai multe șanse de a marca un secol în cadrul unei echipe, cu condiția să avem câteva date conexe. Acum, deoarece pot exista doar 11 poziții de joc în echipă, variabila aleatoare va lua valori cuprinse între 1 și 11.

Funcția de masă a probabilității, numită și Funcția de densitate discretă, ne va permite să aflăm probabilitatea de a obține un secol pentru fiecare poziție, adică P(X=1), P(X=2)….P(X=11). După calcularea tuturor probabilităților, putem calcula distribuția de probabilitate a acelei variabile aleatoare.

Formula generală pentru funcția de masă de probabilitate este următoarea:

P X (x k ) = P(X = x k ) pentru k = 1,2,…k

Unde,

X = variabilă aleatoare discretă.

x k = Valoarea posibilă a variabilei aleatoare.

P = Probabilitatea variabilei aleatoare când este egală cu x k .

Mulți ajung în confuzia dintre Funcția de masă a probabilității (PMF) și Funcția de densitate a probabilității (PDF). Pentru a clarifica acest lucru, funcția de masă a probabilității este pentru variabilele aleatoare discrete, adică variabilele care pot lua un număr limitat de valori într-un interval.

Funcția de densitate de probabilitate este utilizată pentru variabilele aleatoare continue. adică variabilele care pot lua un număr infinit de valori într-un interval. Funcția de masă de probabilitate ajută la calcularea statisticilor generale precum media și varianța distribuției discrete.

Obțineți certificare în știința datelor de la cele mai bune universități din lume. Alăturați-vă programelor noastre Executive PG, Programelor de certificate avansate sau Programelor de master pentru a vă accelera cariera.

Proprietăți ale funcției de masă de probabilitate

  1. Probabilitățile tuturor valorilor posibile ale variabilei aleatoare ar trebui să se însumeze până la 1. [ ∑P X (x k ) = 1]
  2. Toate probabilitățile trebuie să fie pot fi fie 0, fie mai mari decât 0. [P(x k ) ≥ 0]
  3. Probabilitatea ca fiecare eveniment să se producă variază de la 0 la 1. [1 ≥ P(x k ) ≥ 0]

Concluzie

Conceptele de probabilitate precum Funcția de masă a probabilității au fost foarte utile în domeniul științei datelor. Aceste concepte nu pot fi utilizate în fiecare aspect al unui proiect de știință a datelor sau, de altfel, în întregul proiect. Dar acest lucru nu reduce importanța teoriei probabilităților în acest domeniu.

Aplicațiile teoriei probabilităților au oferit rezultate excelente nu numai în domeniul științei datelor, ci și în alte domenii ale industriei, deoarece poate ajuta la perspective interesante și la luarea deciziilor, ceea ce face întotdeauna să fie încercat.

Acest articol a oferit o imagine de ansamblu asupra importanței probabilității în domeniul științei datelor, a introdus conceptele de bază ale probabilității, cum ar fi distribuția probabilității și funcția de masă a probabilității. Articolul s-a concentrat în principal pe termenii variabilelor discrete, deoarece funcția de masă a probabilității este utilizată pentru aceștia. Terminologia folosită pentru variabilele continue este diferită, dar ideologia generală a acestor concepte rămâne similară cu cea explicată în acest articol.

Cum este o distribuție de probabilitate discretă diferită de o distribuție de probabilitate continuă?

Distribuția de probabilitate discretă sau pur și simplu distribuția discretă calculează probabilitățile unei variabile aleatoare care poate fi discretă. De exemplu, dacă aruncăm o monedă de două ori, valorile probabile ale unei variabile aleatoare X care denotă numărul total de capete vor fi {0, 1, 2} și nu orice valoare aleatoare.
Bernoulli, Binomial, Hypergeometric sunt câteva exemple de distribuție de probabilitate discretă.
Pe de altă parte, distribuția continuă de probabilitate oferă probabilitățile unei valori aleatorii care poate fi orice număr aleator. De exemplu, valoarea unei variabile aleatoare X care denotă înălțimea cetățenilor unui oraș ar putea fi orice număr precum 161,2, 150,9 etc.
Normal, T al lui Student, Chi-pătrat sunt câteva dintre exemplele de distribuție continuă.

Explicați distribuția hipergeometrică?

Distribuția hipergeometrică este o distribuție discretă în care luăm în considerare numărul de succese peste numărul de încercări fără nicio înlocuire. Un astfel de tip de distribuție este util în cazurile în care trebuie să găsim probabilitatea a ceva fără a-l înlocui.
Să presupunem că avem o pungă plină cu bile roșii și verzi și trebuie să găsim probabilitatea de a alege o minge verde în 5 încercări, dar de fiecare dată când alegem o minge, nu o întoarcem înapoi în pungă. Acesta este un exemplu potrivit de distribuție hipergeometrică.

Care este importanța probabilității în Data Science?

Întrucât știința datelor se referă la studiul datelor, probabilitatea joacă un rol cheie aici. Următoarele motive descriu modul în care probabilitatea este o parte indispensabilă a științei datelor:
1. Ajută analiștii și cercetătorii să facă predicții din seturi de date. Aceste tipuri de rezultate estimate sunt baza pentru analiza ulterioară a datelor.
2. Probabilitatea este, de asemenea, utilizată în timpul dezvoltării algoritmilor utilizați în modelele de învățare automată. Ajută la analiza seturilor de date utilizate pentru antrenarea modelelor.
3. Vă permite să cuantificați datele și să obțineți rezultate, cum ar fi derivate, medie și distribuție.
4. Toate rezultatele obținute folosind probabilitatea rezumă în cele din urmă datele. Acest rezumat ajută, de asemenea, la identificarea valorii aberante existente în seturile de date.