Función de masa de probabilidad: distribución discreta y propiedades

Publicado: 2021-02-08

Tabla de contenido

Introducción

La probabilidad ha sido un aspecto importante cuando se trata del campo de la ciencia de datos. Ha jugado un papel fundamental en la vida de los analistas de datos y los científicos de datos. Los conceptos utilizados en la teoría de la probabilidad son imprescindibles para las personas en el dominio de la ciencia de datos. Los métodos estadísticos utilizados para hacer ciertas predicciones se basan en las teorías de probabilidad y estadísticas, lo que hace que la probabilidad sea una parte crucial del dominio de la ciencia de datos.

La probabilidad da información sobre la ocurrencia de un determinado evento bajo algunos supuestos, es decir, indica la probabilidad de que ocurra un evento. Para representar los diferentes valores posibles que puede tomar una variable aleatoria, hacemos uso de la distribución de probabilidad.

Una variable aleatoria se puede denominar como los diferentes resultados que son posibles en una situación dada. Para ilustrar, si se lanza un dado, los posibles resultados de esta situación son valores que van del 1 al 6, que se convierten en los valores de la variable aleatoria.

La Distribución de Probabilidad puede ser de dos tipos: – Discreta y Continua. Las distribuciones discretas son para las variables que toman solo un número limitado de valores dentro de un rango. Las distribuciones continuas son para variables que pueden tomar un número infinito de valores dentro de un rango. En este artículo, exploraremos más en la distribución discreta y luego en la función de masa de probabilidad.

Distribución discreta

La distribución discreta representa las probabilidades de los diferentes resultados para una variable aleatoria discreta. En términos simples, nos permite comprender el patrón de los diferentes resultados en la variable aleatoria. No es más que la representación de todas las probabilidades de una variable aleatoria juntas.

Para crear una distribución de probabilidad para una variable aleatoria, necesitamos tener los resultados de la variable aleatoria junto con sus probabilidades asociadas y luego podemos calcular su función de distribución de probabilidad.

Algunos de los tipos de distribuciones discretas se enumeran a continuación: –

  1. Distribución binomial: – El número de resultados en un solo ensayo solo puede ser dos (sí o no, éxito o fracaso, etc.). Ejemplo: – Lanzamiento de una moneda
  2. Distribución de Bernoulli: una versión especial de la distribución binomial en la que el número de intentos realizados en el experimento siempre es igual a 1.
  3. Distribución de Poisson: – Proporciona la probabilidad de que un evento ocurra un cierto número de veces en un período de tiempo específico. Ejemplo: – Número de veces que se transmitirá una película un sábado por la noche.
  4. Distribución uniforme: esta distribución asume que la probabilidad de todos los resultados en una variable aleatoria es la misma. Ejemplo: – Lanzamiento de un dado (ya que todos los lados tienen la misma probabilidad de aparecer).

Puede consultar este enlace para obtener más detalles sobre los tipos de distribuciones continuas y discretas. Para calcular la probabilidad de una variable aleatoria con su valor igual a algún valor dentro del rango, se utiliza la función de masa de probabilidad (PMF). Para cada distribución, la fórmula de la función de masa de probabilidad varía en consecuencia.

Para una mayor claridad sobre la función de masa de probabilidad, analicemos un ejemplo. Supongamos que tenemos que averiguar cuál de las posiciones de bateo en el cricket tiene más probabilidades de anotar un siglo dentro de un equipo, siempre que tengamos algunos datos relacionados. Ahora como solo puede haber 11 posiciones de juego en el equipo, la variable aleatoria tomará valores que van del 1 al 11.

La Función de Masa de Probabilidad, también llamada Función de Densidad Discreta, nos permitirá encontrar la probabilidad de anotar un siglo para cada posición, es decir, P(X=1), P(X=2)….P(X=11). Después del cálculo de todas las probabilidades, podemos calcular la distribución de probabilidad de esa variable aleatoria.

La fórmula general para la función de masa de probabilidad es la siguiente: –

P X (x k ) = P(X = x k ) para k = 1,2,…k

donde,

X = Variable aleatoria discreta.

x k = Valor posible de la variable aleatoria.

P = Probabilidad de la variable aleatoria cuando es igual a x k .

Muchos se meten en la confusión entre la función de masa de probabilidad (PMF) y la función de densidad de probabilidad (PDF). Para aclarar esto, la función de masa de probabilidad es para las variables aleatorias discretas, es decir, las variables que pueden tomar un número limitado de valores dentro de un rango.

La función de densidad de probabilidad se utiliza para las variables aleatorias continuas. es decir, las variables que pueden tomar un número infinito de valores en un rango. La función de masa de probabilidad ayuda en el cálculo de las estadísticas generales como la media y la varianza de la distribución discreta.

Obtenga una certificación en ciencia de datos de las mejores universidades del mundo. Únase a nuestros programas Executive PG, programas de certificación avanzada o programas de maestría para acelerar su carrera.

Propiedades de la función de masa de probabilidad

  1. Las probabilidades de todos los valores posibles de la variable aleatoria deben sumar 1. [ ∑P X (x k ) = 1]
  2. Todas las probabilidades deben ser 0 o mayores que 0. [P(x k ) ≥ 0]
  3. La probabilidad de que ocurra cada evento varía de 0 a 1. [1 ≥ P(x k ) ≥ 0]

Conclusión

Los conceptos de probabilidad como Función de masa de probabilidad han sido muy útiles en el dominio de la ciencia de datos. Es posible que estos conceptos no se utilicen en todos los aspectos de un proyecto de ciencia de datos ni tampoco en todo el proyecto. Pero esto no menosprecia la importancia de la teoría de la probabilidad en este dominio.

Las aplicaciones de la teoría de la probabilidad han brindado excelentes resultados no solo en el dominio de la ciencia de datos, sino también en otros dominios de la industria, ya que puede ayudar a obtener información interesante y tomar decisiones que siempre hacen que valga la pena intentarlo.

Este artículo proporcionó una descripción general de la importancia de la probabilidad en el campo de la ciencia de datos, introdujo los conceptos básicos de probabilidad como la distribución de probabilidad y la función de masa de probabilidad. El artículo se ha centrado principalmente en los términos de variables discretas, ya que para ellos se utiliza la función de masa de probabilidad. Las terminologías utilizadas para las variables continuas son diferentes, pero la ideología general de estos conceptos sigue siendo similar a la explicada en este artículo.

¿En qué se diferencia una distribución de probabilidad discreta de una distribución de probabilidad continua?

La distribución de probabilidad discreta o simplemente distribución discreta calcula las probabilidades de una variable aleatoria que puede ser discreta. Por ejemplo, si lanzamos una moneda dos veces, los valores probables de una variable aleatoria X que denota el número total de caras serán {0, 1, 2} y no cualquier valor aleatorio.
Bernoulli, Binomial, Hypergeometric son algunos ejemplos de la distribución de probabilidad discreta.
Por otro lado, la distribución de probabilidad continua proporciona las probabilidades de un valor aleatorio que puede ser cualquier número aleatorio. Por ejemplo, el valor de una variable aleatoria X que denota la altura de los ciudadanos de una ciudad podría ser cualquier número como 161,2, 150,9, etc.
Normal, T de Student, Chi-cuadrado son algunos de los ejemplos de distribución continua.

¿Explicar la distribución hipergeométrica?

La distribución hipergeométrica es una distribución discreta donde consideramos el número de aciertos sobre el número de intentos sin reemplazo alguno. Este tipo de distribución es útil en los casos en que necesitamos encontrar la probabilidad de algo sin reemplazarlo.
Digamos que tenemos una bolsa llena de bolas rojas y verdes y tenemos que encontrar la probabilidad de sacar una bola verde en 5 intentos, pero cada vez que sacamos una bola, no la devolvemos a la bolsa. Este es un buen ejemplo de la distribución hipergeométrica.

¿Cuál es la importancia de la probabilidad en Data Science?

Como la ciencia de datos se trata de estudiar datos, la probabilidad juega un papel clave aquí. Las siguientes razones describen cómo la probabilidad es una parte indispensable de la ciencia de datos:
1. Ayuda a los analistas e investigadores a hacer predicciones a partir de conjuntos de datos. Este tipo de resultados estimados son la base para un análisis posterior de los datos.
2. La probabilidad también se utiliza al desarrollar algoritmos utilizados en modelos de aprendizaje automático. Ayuda a analizar los conjuntos de datos utilizados para entrenar los modelos.
3. Le permite cuantificar datos y derivar resultados como derivados, media y distribución.
4. Todos los resultados obtenidos usando probabilidad finalmente resumen los datos. Este resumen también ayuda en la identificación de valores atípicos existentes en los conjuntos de datos.