Fonction de masse de probabilité : distribution discrète et propriétés

Publié: 2021-02-08

Table des matières

introduction

La probabilité a été un aspect important dans le domaine de la science des données. Il a joué un rôle central dans la vie des analystes de données et des data scientists. Les concepts utilisés dans la théorie des probabilités sont incontournables pour les personnes du domaine de la science des données. Les méthodes statistiques utilisées pour faire certaines prédictions sont basées sur les théories des probabilités et des statistiques, faisant ainsi de la probabilité un élément crucial du domaine de la science des données.

La probabilité donne des informations sur la survenance d'un certain événement sous certaines hypothèses, c'est-à-dire qu'elle indique la probabilité qu'un événement se produise. Pour représenter les différentes valeurs possibles que peut prendre une variable aléatoire, on utilise la distribution de probabilité.

Une variable aléatoire peut être désignée comme les différents résultats possibles dans une situation donnée. Pour illustrer, si un dé est lancé, alors les résultats possibles pour cette situation sont des valeurs allant de 1 à 6 qui deviennent les valeurs de la variable aléatoire.

La distribution de probabilité peut être de deux types : – discrète et continue. Les distributions discrètes concernent les variables qui ne prennent qu'un nombre limité de valeurs dans une plage. Les distributions continues concernent les variables qui peuvent prendre un nombre infini de valeurs dans une plage. Dans cet article, nous explorerons davantage la distribution discrète et plus tard la fonction de masse de probabilité.

Distribution discrète

La distribution discrète représente les probabilités des différents résultats pour une variable aléatoire discrète. En termes simples, cela nous permet de comprendre le modèle des différents résultats dans la variable aléatoire. Ce n'est rien d'autre que la représentation de toutes les probabilités d'une variable aléatoire réunies.

Pour créer une distribution de probabilité pour une variable aléatoire, nous devons avoir les résultats de la variable aléatoire avec ses probabilités associées, puis nous pouvons calculer sa fonction de distribution de probabilité.

Certains des types de distributions discrètes sont répertoriés comme suit : –

  1. Distribution binomiale : - Le nombre de résultats dans un même essai ne peut être que de deux (oui ou non, succès ou échec, etc.). Exemple : – Lancer d'une pièce de monnaie
  2. Distribution de Bernoulli : - Une version spéciale de la distribution binomiale où le nombre d'essais effectués dans l'expérience est toujours égal à 1.
  3. Distribution de Poisson : - Elle fournit la probabilité qu'un événement se produise un certain nombre de fois dans une période de temps spécifique. Exemple : – Nombre de fois qu'un film sera diffusé un samedi soir.
  4. Distribution uniforme : - Cette distribution suppose que la probabilité de tous les résultats d'une variable aléatoire est la même. Exemple : – Lancement d'un dé (car toutes les faces ont une probabilité égale de se présenter).

Vous pouvez vous référer à ce lien pour plus de détails sur les types de distributions continues et discrètes. Pour calculer la probabilité d'une variable aléatoire avec sa valeur égale à une valeur dans la plage, la fonction de masse de probabilité (PMF) est utilisée. Pour chaque distribution, la formule de la fonction de masse de probabilité varie en conséquence.

Pour plus de clarté sur la fonction de masse de probabilité, passons en revue un exemple. Supposons que nous devions déterminer laquelle des positions de frappeur au cricket a la plus grande probabilité de marquer un siècle au sein d'une équipe, à condition que nous ayons des données connexes. Maintenant, comme il ne peut y avoir que 11 positions de jeu dans l'équipe, la variable aléatoire prendra des valeurs allant de 1 à 11.

La fonction de masse de probabilité, également appelée fonction de densité discrète, nous permettra de connaître la probabilité de marquer un siècle pour chaque position, c'est-à-dire P(X=1), P(X=2)….P(X=11). Après le calcul de toutes les probabilités, nous pouvons calculer la distribution de probabilité de cette variable aléatoire.

La formule générale de la fonction de masse de probabilité est la suivante : –

P X (x k ) = P(X = x k ) pour k = 1,2,…k

où,

X = Variable aléatoire discrète.

x k = Valeur possible de la variable aléatoire.

P = Probabilité de la variable aléatoire lorsqu'elle est égale à x k .

Beaucoup se retrouvent dans la confusion entre la fonction de masse de probabilité (PMF) et la fonction de densité de probabilité (PDF). Pour clarifier cela, la fonction de masse de probabilité concerne les variables aléatoires discrètes, c'est-à-dire les variables qui peuvent prendre un nombre limité de valeurs dans une plage.

La fonction de densité de probabilité est utilisée pour les variables aléatoires continues. c'est-à-dire les variables qui peuvent prendre un nombre infini de valeurs dans une plage. La fonction de masse de probabilité aide au calcul des statistiques générales telles que la moyenne et la variance de la distribution discrète.

Obtenez une certification en science des données des meilleures universités du monde. Rejoignez nos programmes Executive PG, Advanced Certificate Programs ou Masters Programs pour accélérer votre carrière.

Propriétés de la fonction de masse de probabilité

  1. Les probabilités de toutes les valeurs possibles de la variable aléatoire doivent totaliser 1. [ ∑P X (x k ) = 1]
  2. Toutes les probabilités doivent être soit 0 soit supérieures à 0. [P(x k ) ≥ 0]
  3. La probabilité que chaque événement se produise varie de 0 à 1. [1 ≥ P(x k ) ≥ 0]

Conclusion

Les concepts de probabilité comme la fonction de masse de probabilité ont été très utiles dans le domaine de la science des données. Ces concepts peuvent ne pas être utilisés dans tous les aspects d'un projet de science des données ou d'ailleurs dans l'ensemble du projet également. Mais cela ne diminue pas l'importance de la théorie des probabilités dans ce domaine.

Les applications de la théorie des probabilités ont fourni d'excellents résultats non seulement dans le domaine de la science des données, mais également dans d'autres domaines de l'industrie, car elles peuvent aider à obtenir des informations intéressantes et à prendre des décisions, ce qui vaut toujours la peine d'essayer.

Cet article a donné un aperçu de l'importance de la probabilité dans le domaine de la science des données, a présenté les concepts de base de la probabilité comme la distribution de probabilité et la fonction de masse de probabilité. L'article s'est principalement concentré sur les termes de variables discrètes car la fonction de masse de probabilité est utilisée pour eux. Les terminologies utilisées pour les variables continues sont différentes, mais l'idéologie globale de ces concepts reste similaire à celle expliquée dans cet article.

En quoi une distribution de probabilité discrète diffère-t-elle d'une distribution de probabilité continue ?

La distribution de probabilité discrète ou simplement la distribution discrète calcule les probabilités d'une variable aléatoire qui peut être discrète. Par exemple, si nous lançons une pièce deux fois, les valeurs probables d'une variable aléatoire X qui indique le nombre total de faces seront {0, 1, 2} et non une valeur aléatoire.
Bernoulli, Binomial, Hypergeometric sont quelques exemples de la distribution de probabilité discrète.
D'autre part, la distribution de probabilité continue fournit les probabilités d'une valeur aléatoire qui peut être n'importe quel nombre aléatoire. Par exemple, la valeur d'une variable aléatoire X qui indique la taille des citoyens d'une ville pourrait être n'importe quel nombre comme 161,2, 150,9, etc.
Normal, T de Student, Chi-carré sont quelques-uns des exemples de distribution continue.

Expliquer la distribution hypergéométrique ?

La distribution hypergéométrique est une distribution discrète où l'on considère le nombre de succès sur le nombre d'essais sans aucun remplacement. Un tel type de distribution est utile dans les cas où nous devons trouver la probabilité de quelque chose sans la remplacer.
Disons que nous avons un sac plein de boules rouges et vertes et que nous devons trouver la probabilité de tirer une boule verte en 5 tentatives mais à chaque fois que nous tirons une boule, nous ne la remettons pas dans le sac. Ceci est un bon exemple de la distribution hypergéométrique.

Quelle est l'importance de la probabilité en Data Science ?

Comme la science des données consiste à étudier les données, la probabilité joue ici un rôle clé. Les raisons suivantes décrivent comment la probabilité est un élément indispensable de la science des données :
1. Il aide les analystes et les chercheurs à faire des prédictions à partir d'ensembles de données. Ces types de résultats estimés constituent le fondement d'une analyse plus approfondie des données.
2. La probabilité est également utilisée lors du développement d'algorithmes utilisés dans les modèles d'apprentissage automatique. Il aide à analyser les ensembles de données utilisés pour former les modèles.
3. Il vous permet de quantifier les données et de dériver des résultats tels que les dérivées, la moyenne et la distribution.
4. Tous les résultats obtenus en utilisant la probabilité résument finalement les données. Ce résumé aide également à identifier les valeurs aberrantes existantes dans les ensembles de données.