Wahrscheinlichkeits-Massenfunktion: Diskrete Verteilung & Eigenschaften

Veröffentlicht: 2021-02-08

Inhaltsverzeichnis

Einführung

Wahrscheinlichkeit ist ein wichtiger Aspekt im Bereich Data Science. Es hat eine zentrale Rolle im Leben von Datenanalysten und Datenwissenschaftlern gespielt. Die in der Wahrscheinlichkeitstheorie verwendeten Konzepte sind ein Muss für Menschen im Bereich Data Science. Die statistischen Methoden, die für bestimmte Vorhersagen verwendet werden, basieren auf Wahrscheinlichkeits- und Statistiktheorien, wodurch die Wahrscheinlichkeit zu einem entscheidenden Teil des Bereichs der Datenwissenschaft wird.

Die Wahrscheinlichkeit gibt Auskunft über das Eintreten eines bestimmten Ereignisses unter bestimmten Annahmen, dh sie gibt die Wahrscheinlichkeit an, dass ein Ereignis eintritt. Um die verschiedenen möglichen Werte darzustellen, die eine Zufallsvariable annehmen kann, verwenden wir die Wahrscheinlichkeitsverteilung.

Eine Zufallsvariable kann als die verschiedenen Ergebnisse bezeichnet werden, die in einer bestimmten Situation möglich sind. Zur Veranschaulichung: Wenn ein Würfel geworfen wird, sind die möglichen Ergebnisse für diese Situation Werte im Bereich von 1 bis 6, die zu den Werten der Zufallsvariablen werden.

Es gibt zwei Arten von Wahrscheinlichkeitsverteilungen: – Diskret und Kontinuierlich. Diskrete Verteilungen sind für die Variablen, die nur eine begrenzte Anzahl von Werten innerhalb eines Bereichs annehmen. Kontinuierliche Verteilungen sind für Variablen, die eine unendliche Anzahl von Werten innerhalb eines Bereichs annehmen können. In diesem Artikel werden wir uns eingehender mit der diskreten Verteilung und später mit der Wahrscheinlichkeits-Massenfunktion befassen.

Diskrete Verteilung

Die diskrete Verteilung repräsentiert die Wahrscheinlichkeiten der verschiedenen Ergebnisse für eine diskrete Zufallsvariable. Einfach ausgedrückt ermöglicht es uns, das Muster der verschiedenen Ergebnisse in der Zufallsvariablen zu verstehen. Es ist nichts anderes als die Darstellung aller Wahrscheinlichkeiten einer Zufallsvariablen zusammengenommen.

Um eine Wahrscheinlichkeitsverteilung für eine Zufallsvariable zu erstellen, benötigen wir die Ergebnisse der Zufallsvariablen zusammen mit den zugehörigen Wahrscheinlichkeiten und können dann ihre Wahrscheinlichkeitsverteilungsfunktion berechnen.

Einige der Arten von diskreten Verteilungen sind wie folgt aufgeführt: –

  1. Binomialverteilung: – Die Anzahl der Ergebnisse in einem einzelnen Versuch kann nur zwei sein (ja oder nein, Erfolg oder Misserfolg usw.). Beispiel: – Münzwurf
  2. Bernoulli-Verteilung: – Eine spezielle Version der Binomialverteilung, bei der die Anzahl der im Experiment durchgeführten Versuche immer gleich 1 ist.
  3. Poisson-Verteilung: – Sie gibt die Wahrscheinlichkeit an, dass ein Ereignis in einem bestimmten Zeitraum eine bestimmte Anzahl von Malen auftritt. Beispiel: – Wie oft ein Film an einem Samstagabend gestreamt wird.
  4. Gleichverteilung: – Diese Verteilung geht davon aus, dass die Wahrscheinlichkeit für alle Ergebnisse in einer Zufallsvariablen gleich ist. Beispiel: – Würfeln (da alle Seiten mit gleicher Wahrscheinlichkeit auftauchen).

Weitere Informationen zu Arten kontinuierlicher und diskreter Verteilungen finden Sie unter diesem Link . Um die Wahrscheinlichkeit einer Zufallsvariablen zu berechnen, deren Wert einem Wert innerhalb des Bereichs entspricht, wird die Wahrscheinlichkeitsmassenfunktion (PMF) verwendet. Für jede Verteilung variiert die Formel der Wahrscheinlichkeitsmassenfunktion entsprechend.

Lassen Sie uns zur besseren Verdeutlichung der Wahrscheinlichkeitsmassenfunktion ein Beispiel durchgehen. Angenommen, wir müssen herausfinden, welche der Schlagpositionen beim Cricket mit größerer Wahrscheinlichkeit ein Jahrhundert innerhalb eines Teams erzielen, vorausgesetzt, wir haben einige zugehörige Daten. Da es jetzt nur noch 11 Spielpositionen im Team geben kann, nimmt die Zufallsvariable Werte von 1 bis 11 an.

Die Wahrscheinlichkeits-Massenfunktion, auch Diskrete Dichtefunktion genannt, ermöglicht es uns, die Wahrscheinlichkeit herauszufinden, mit der ein Jahrhundert für jede Position erzielt wird, dh P(X=1), P(X=2)….P(X=11). Nach der Berechnung aller Wahrscheinlichkeiten können wir die Wahrscheinlichkeitsverteilung dieser Zufallsvariablen berechnen.

Die allgemeine Formel für die Wahrscheinlichkeitsmassenfunktion lautet wie folgt: –

P X (x k ) = P(X = x k ) für k = 1,2,…k

wo,

X = Diskrete Zufallsvariable.

x k = Möglicher Wert der Zufallsvariablen.

P = Wahrscheinlichkeit der Zufallsvariablen, wenn sie gleich x k ist .

Viele geraten in die Verwirrung zwischen Probability Mass Function (PMF) und Probability Density Function (PDF). Um dies zu klären, ist die Wahrscheinlichkeitsmassenfunktion für die diskreten Zufallsvariablen, dh die Variablen, die eine begrenzte Anzahl von Werten innerhalb eines Bereichs annehmen können.

Für die kontinuierlichen Zufallsvariablen wird die Wahrscheinlichkeitsdichtefunktion verwendet. dh die Variablen, die in einem Bereich unendlich viele Werte annehmen können. Die Wahrscheinlichkeitsmassenfunktion hilft bei der Berechnung der allgemeinen Statistiken wie Mittelwert und Varianz der diskreten Verteilung.

Erwerben Sie eine Data-Science-Zertifizierung von den besten Universitäten der Welt. Nehmen Sie an unseren Executive PG-Programmen, Advanced Certificate Programs oder Masters-Programmen teil, um Ihre Karriere zu beschleunigen.

Eigenschaften der Wahrscheinlichkeitsmassenfunktion

  1. Die Wahrscheinlichkeiten aller möglichen Werte der Zufallsvariablen sollten sich zu 1 summieren. [ ∑P X (x k ) = 1]
  2. Alle Wahrscheinlichkeiten müssen entweder 0 oder größer als 0 sein. [P(x k ) ≥ 0]
  3. Die Wahrscheinlichkeit, dass jedes Ereignis eintritt, reicht von 0 bis 1. [1 ≥ P(x k ) ≥ 0]

Fazit

Die Wahrscheinlichkeitskonzepte wie die Wahrscheinlichkeitsmassenfunktion waren im Bereich der Datenwissenschaft sehr nützlich. Diese Konzepte können nicht in jedem Aspekt eines Data-Science-Projekts oder sogar im gesamten Projekt verwendet werden. Dies schmälert jedoch nicht die Bedeutung der Wahrscheinlichkeitstheorie in diesem Bereich.

Die Anwendungen der Wahrscheinlichkeitstheorie haben nicht nur im Bereich der Datenwissenschaft, sondern auch in anderen Bereichen der Branche zu großartigen Ergebnissen geführt, da sie zu interessanten Erkenntnissen und Entscheidungsfindungen beitragen können, was einen Versuch immer wert ist.

Dieser Artikel gab einen Überblick über die Bedeutung der Wahrscheinlichkeit im Bereich Data Science und stellte die grundlegenden Konzepte der Wahrscheinlichkeit wie Wahrscheinlichkeitsverteilung und Wahrscheinlichkeitsmassenfunktion vor. Der Artikel hat sich hauptsächlich auf die Terme der diskreten Variablen konzentriert, da für sie die Wahrscheinlichkeitsmassenfunktion verwendet wird. Die für die kontinuierlichen Variablen verwendeten Terminologien sind unterschiedlich, aber die allgemeine Ideologie dieser Konzepte bleibt der in diesem Artikel erläuterten ähnlich.

Wie unterscheidet sich eine diskrete Wahrscheinlichkeitsverteilung von einer kontinuierlichen Wahrscheinlichkeitsverteilung?

Die diskrete Wahrscheinlichkeitsverteilung oder einfach diskrete Verteilung berechnet die Wahrscheinlichkeiten einer Zufallsvariablen, die diskret sein kann. Wenn wir zum Beispiel eine Münze zweimal werfen, sind die wahrscheinlichen Werte einer Zufallsvariablen X, die die Gesamtzahl der Köpfe angibt, {0, 1, 2} und kein zufälliger Wert.
Bernoulli, Binomial, Hypergeometric sind einige Beispiele für die diskrete Wahrscheinlichkeitsverteilung.
Andererseits liefert die kontinuierliche Wahrscheinlichkeitsverteilung die Wahrscheinlichkeiten eines Zufallswerts, der eine beliebige Zufallszahl sein kann. Beispielsweise könnte der Wert einer Zufallsvariablen X, die die Größe der Bürger einer Stadt angibt, eine beliebige Zahl wie 161,2, 150,9 usw. sein.
Normal, Student's T, Chi-Quadrat sind einige der Beispiele für kontinuierliche Verteilung.

Hypergeometrische Verteilung erklären?

Die hypergeometrische Verteilung ist eine diskrete Verteilung, bei der wir die Anzahl der Erfolge über der Anzahl der Versuche ohne Ersatz betrachten. Eine solche Art der Verteilung ist in Fällen nützlich, in denen wir die Wahrscheinlichkeit von etwas finden müssen, ohne es zu ersetzen.
Nehmen wir an, wir haben eine Tasche voller roter und grüner Bälle und müssen die Wahrscheinlichkeit ermitteln, mit 5 Versuchen eine grüne Kugel zu ziehen, aber jedes Mal, wenn wir eine Kugel ziehen, legen wir sie nicht zurück in die Tasche. Dies ist ein treffendes Beispiel für die hypergeometrische Verteilung.

Welche Bedeutung hat die Wahrscheinlichkeit in der Data Science?

Da es in der Datenwissenschaft ausschließlich um das Studium von Daten geht, spielt die Wahrscheinlichkeit hier eine Schlüsselrolle. Die folgenden Gründe beschreiben, warum Wahrscheinlichkeit ein unverzichtbarer Bestandteil der Datenwissenschaft ist:
1. Es hilft Analysten und Forschern, Vorhersagen aus Datensätzen zu treffen. Solche geschätzten Ergebnisse bilden die Grundlage für die weitere Analyse der Daten.
2. Die Wahrscheinlichkeit wird auch bei der Entwicklung von Algorithmen verwendet, die in maschinellen Lernmodellen verwendet werden. Es hilft bei der Analyse der Datensätze, die zum Trainieren der Modelle verwendet werden.
3. Sie können Daten quantifizieren und Ergebnisse wie Ableitungen, Mittelwert und Verteilung ableiten.
4. Alle unter Verwendung der Wahrscheinlichkeit erzielten Ergebnisse fassen schließlich die Daten zusammen. Diese Zusammenfassung hilft auch bei der Identifizierung vorhandener Ausreißer in den Datensätzen.