Funkcja masy prawdopodobieństwa: Dystrybucja i właściwości dyskretne

Opublikowany: 2021-02-08

Spis treści

Wstęp

Prawdopodobieństwo było ważnym aspektem w dziedzinie Data Science. Odegrał kluczową rolę w życiu analityków danych i naukowców zajmujących się danymi. Pojęcia używane w teorii prawdopodobieństwa są obowiązkową wiedzą dla osób zajmujących się nauką o danych. Metody statystyczne stosowane do dokonywania pewnych przewidywań opierają się na teoriach prawdopodobieństwa i statystyce, dzięki czemu prawdopodobieństwo stanowi kluczową część dziedziny nauki o danych.

Prawdopodobieństwo daje informację o wystąpieniu określonego zdarzenia przy pewnych założeniach, tj. wskazuje prawdopodobieństwo wystąpienia zdarzenia. Aby przedstawić różne możliwe wartości, jakie może przyjąć zmienna losowa, korzystamy z rozkładu prawdopodobieństwa.

Zmienną losową można nazwać różnymi wynikami, które są możliwe w danej sytuacji. Dla przykładu, jeśli rzuci się kostką, możliwymi wynikami tej sytuacji są wartości od 1 do 6, które stają się wartościami zmiennej losowej.

Rozkład prawdopodobieństwa może być dwojakiego rodzaju: – dyskretny i ciągły. Rozkłady dyskretne dotyczą zmiennych, które przyjmują tylko ograniczoną liczbę wartości w zakresie. Rozkłady ciągłe dotyczą zmiennych, które mogą przyjmować nieskończoną liczbę wartości w zakresie. W tym artykule przyjrzymy się dokładniej rozkładowi dyskretnemu, a później funkcji masy prawdopodobieństwa.

Dystrybucja dyskretna

Rozkład dyskretny reprezentuje prawdopodobieństwa różnych wyników dla dyskretnej zmiennej losowej. Mówiąc prościej, pozwala nam to zrozumieć wzór różnych wyników w zmiennej losowej. To nic innego jak przedstawienie wszystkich prawdopodobieństw zmiennej losowej razem wziętych.

Aby utworzyć rozkład prawdopodobieństwa dla zmiennej losowej, musimy mieć wyniki zmiennej losowej wraz z powiązanymi prawdopodobieństwami, a następnie możemy obliczyć jej funkcję rozkładu prawdopodobieństwa.

Niektóre typy dystrybucji dyskretnych są wymienione w następujący sposób: –

  1. Rozkład dwumianowy: – Liczba wyników w jednym badaniu może wynosić tylko dwa (tak lub nie, sukces lub porażka itp.). Przykład: – Rzut monetą
  2. Rozkład Bernoulliego: – Specjalna wersja rozkładu dwumianowego, w której liczba prób przeprowadzonych w eksperymencie jest zawsze równa 1.
  3. Rozkład Poissona: – podaje prawdopodobieństwo wystąpienia zdarzenia określoną liczbę razy w określonym czasie. Przykład: – Liczba wyświetleń filmu w sobotni wieczór.
  4. Rozkład jednostajny: – Ten rozkład zakłada, że ​​prawdopodobieństwo dla wszystkich wyników w zmiennej losowej jest takie samo. Przykład: – Rzut kostką (ponieważ wszystkie strony mają jednakowe prawdopodobieństwo pojawienia się).

Możesz odnieść się do tego linku , aby uzyskać więcej informacji na temat rodzajów dystrybucji ciągłych i dyskretnych. Do obliczenia prawdopodobieństwa zmiennej losowej o wartości równej pewnej wartości z przedziału wykorzystuje się funkcję masy prawdopodobieństwa (PMF). Dla każdego rozkładu wzór na funkcję masy prawdopodobieństwa zmienia się odpowiednio.

Dla lepszego zrozumienia funkcji masy prawdopodobieństwa prześledźmy przykład. Załóżmy, że musimy dowiedzieć się, która z pozycji odbijających w krykiecie ma większe prawdopodobieństwo zdobycia stu lat w drużynie, pod warunkiem, że mamy pewne powiązane dane. Ponieważ w drużynie może być tylko 11 miejsc do gry, zmienna losowa przyjmie wartości od 1 do 11.

Funkcja masy prawdopodobieństwa, zwana także funkcją dyskretnej gęstości, pozwoli nam określić prawdopodobieństwo zdobycia wieku dla każdej pozycji, tj. P(X=1), P(X=2)….P(X=11). Po obliczeniu wszystkich prawdopodobieństw możemy obliczyć rozkład prawdopodobieństwa tej zmiennej losowej.

Ogólny wzór na funkcję masy prawdopodobieństwa jest następujący: –

P X (x k ) = P(X = x k ) dla k = 1,2,…k

gdzie,

X = Dyskretna zmienna losowa.

x k = Możliwa wartość zmiennej losowej.

P = Prawdopodobieństwo zmiennej losowej, gdy jest równe x k .

Wielu wpada w zamieszanie między funkcją masy prawdopodobieństwa (PMF) a funkcją gęstości prawdopodobieństwa (PDF). Aby to wyjaśnić, funkcja masy prawdopodobieństwa dotyczy dyskretnych zmiennych losowych, tj. zmiennych, które mogą przyjmować ograniczoną liczbę wartości w zakresie.

Funkcja gęstości prawdopodobieństwa jest używana dla ciągłych zmiennych losowych. tj. zmienne, które mogą przyjmować nieskończoną liczbę wartości w zakresie. Funkcja masy prawdopodobieństwa pomaga w obliczaniu ogólnych statystyk, takich jak średnia i wariancja rozkładu dyskretnego.

Zdobądź certyfikat nauk o danych z najlepszych światowych uniwersytetów. Dołącz do naszych programów Executive PG, Advanced Certificate Programs lub Masters, aby przyspieszyć swoją karierę.

Właściwości funkcji masy prawdopodobieństwa

  1. Prawdopodobieństwo wszystkich możliwych wartości zmiennej losowej powinno sumować się do 1. [ ∑P X (x k ) = 1]
  2. Wszystkie prawdopodobieństwa muszą być równe 0 lub większe od 0. [P(x k ) ≥ 0]
  3. Prawdopodobieństwo wystąpienia każdego zdarzenia wynosi od 0 do 1. [1 ≥ P(x k ) ≥ 0]

Wniosek

Koncepcje prawdopodobieństwa, takie jak funkcja masy prawdopodobieństwa, są bardzo przydatne w dziedzinie nauki o danych. Te koncepcje nie mogą być używane w każdym aspekcie projektu analizy danych ani w całym projekcie. Nie umniejsza to jednak znaczenia teorii prawdopodobieństwa w tej dziedzinie.

Zastosowania teorii prawdopodobieństwa przyniosły świetne wyniki nie tylko w dziedzinie nauki o danych, ale także w innych dziedzinach przemysłu, ponieważ może ona pomóc w interesujących spostrzeżeniach i podejmowaniu decyzji, co zawsze sprawia, że ​​warto spróbować.

W artykule przedstawiono przegląd znaczenia prawdopodobieństwa w dziedzinie nauki o danych, przedstawiono podstawowe pojęcia prawdopodobieństwa, takie jak rozkład prawdopodobieństwa i funkcja masy prawdopodobieństwa. W artykule skupiono się głównie na terminach zmiennych dyskretnych, ponieważ wykorzystuje się dla nich funkcję masy prawdopodobieństwa. Terminologie używane dla zmiennych ciągłych są różne, ale ogólna ideologia tych pojęć pozostaje podobna do tej wyjaśnionej w tym artykule.

Czym różni się dyskretny rozkład prawdopodobieństwa od ciągłego rozkładu prawdopodobieństwa?

Dyskretny rozkład prawdopodobieństwa lub po prostu dyskretny rozkład oblicza prawdopodobieństwa zmiennej losowej, która może być dyskretna. Na przykład, jeśli rzucimy monetą dwa razy, prawdopodobne wartości zmiennej losowej X, która oznacza całkowitą liczbę orłów, wyniosą {0, 1, 2}, a nie dowolna wartość losowa.
Bernoulli, dwumianowy, hipergeometryczny to tylko niektóre przykłady dyskretnego rozkładu prawdopodobieństwa.
Z drugiej strony ciągły rozkład prawdopodobieństwa dostarcza prawdopodobieństwa wartości losowej, która może być dowolną liczbą losową. Na przykład wartość zmiennej losowej X oznaczającej wzrost mieszkańców miasta może być dowolną liczbą, taką jak 161,2, 150,9 itd.
Normalny, T-Studenta, chi-kwadrat to tylko niektóre przykłady rozkładu ciągłego.

Wyjaśnij rozkład hipergeometryczny?

Rozkład hipergeometryczny jest rozkładem dyskretnym, w którym bierzemy pod uwagę liczbę sukcesów w stosunku do liczby prób bez żadnej wymiany. Taki rozkład jest przydatny w przypadkach, gdy musimy znaleźć prawdopodobieństwo czegoś bez zastępowania go.
Powiedzmy, że mamy worek pełen czerwonych i zielonych piłek i musimy obliczyć prawdopodobieństwo wybicia zielonej piłki w 5 próbach, ale za każdym razem, gdy wybieramy piłkę, nie zwracamy jej z powrotem do worka. To trafny przykład rozkładu hipergeometrycznego.

Jakie znaczenie ma prawdopodobieństwo w nauce o danych?

Ponieważ nauka o danych polega na badaniu danych, prawdopodobieństwo odgrywa tutaj kluczową rolę. Poniższe powody opisują, jak prawdopodobieństwo jest nieodzowną częścią nauki o danych:
1. Pomaga analitykom i badaczom dokonywać prognoz na podstawie zbiorów danych. Tego rodzaju szacunkowe wyniki są podstawą do dalszej analizy danych.
2. Prawdopodobieństwo jest również wykorzystywane przy opracowywaniu algorytmów wykorzystywanych w modelach uczenia maszynowego. Pomaga w analizie zestawów danych używanych do uczenia modeli.
3. Pozwala na kwantyfikację danych i uzyskanie wyników, takich jak pochodne, średnia i dystrybucja.
4. Wszystkie wyniki uzyskane za pomocą prawdopodobieństwa ostatecznie podsumowują dane. Podsumowanie to pomaga również w identyfikacji istniejących wartości odstających w zbiorach danych.