Introducción a la regresión binomial negativa: guía paso a paso

Publicado: 2022-04-17

Se utiliza la técnica de Regresión Binomial Negativa para realizar el modelado de variables de conteo. El método es casi similar al método de regresión múltiple. Sin embargo, existe la diferencia de que en el caso de la Regresión Binomial Negativa, la variable dependiente, es decir, Y, sigue la distribución binomial negativa. Por lo tanto, los valores de la variable pueden ser enteros no negativos como 0, 1, 2.

El método también es una extensión de la regresión de Poisson que se relaja al suponer que la media es igual a la varianza. Uno de los modelos tradicionales de regresión binomial, definido como “NB2”, se basa en la distribución mixta de Poisson-gamma.

El método de la regresión de Poisson se generaliza mediante la adición de una variable de ruido gamma. Esta variable tiene un valor de media uno y también un parámetro de escala que es “v”.

Aquí hay algunos ejemplos de la regresión binomial negativa:

  • Los administradores de la escuela realizaron un estudio para estudiar el comportamiento de asistencia de los estudiantes de secundaria de dos escuelas. Los factores que podrían influir en el comportamiento de asistencia podrían incluir los días en que los juniors estuvieron ausentes de la escuela. También, el programa en el que estaban matriculados.
  • Un investigador de un estudio relacionado con la salud realizó un estudio de cuántas personas mayores visitaron un hospital en los últimos 12 meses. El estudio se basó en las características de los individuos y los planes de salud que contrataron los adultos mayores.

Tabla de contenido

Ejemplo de regresión binomial negativa

Supongamos que hay una hoja de asistencia de alrededor de 314 estudiantes de secundaria. Los datos se toman de dos escuelas urbanas y se almacenan en un archivo llamado nb_data.dta. La variable de respuesta interesante en este ejemplo son los días de ausencia, que son "daysabs". Está presente una variable, "matemáticas", que define el puntaje de matemáticas para cada estudiante. Hay otra variable que es "prog". Esta variable indica el programa en el que están matriculados los estudiantes.

Fuente

Cada una de las variables tiene alrededor de 314 observaciones. Por lo tanto, las distribuciones entre las variables también son razonables. Además, considerando la variable resultado, la media incondicional es menor que la varianza.

Ahora, concéntrese en la descripción de la variable considerada en el conjunto de datos. Una tabla tabula el promedio de días que un estudiante estuvo ausente de la escuela en cada tipo de programa. Esto sugiere que el programa de tipo variable puede predecir los días que el estudiante estuvo ausente de la escuela. También puede usarlo para predecir la variable de resultado. Esto se debe a que el valor medio de la variable de resultado varía según la variable prog. Además, los valores de las varianzas son más altos que en cada nivel de la variable prog. Estos valores se denominan varianzas y medias. Las diferencias existentes sugieren que existe la presencia de sobredispersión, por lo que será adecuado utilizar un modelo binomial negativo.

Fuente

Un investigador puede considerar varios métodos de análisis para este tipo de estudio. Estos métodos se describen a continuación. Algunos de los métodos de análisis que el usuario puede utilizar para analizar el modelo de regresión son:

1. Regresión binomial negativa

El método de regresión binomial negativa se utilizará cuando haya datos dispersos. Esto significa que el valor de la varianza condicional es mayor o supera el valor de la media condicional. El método se considera generalizado a partir del método de regresión de Poisson. Esto se debe a que ambos métodos tienen la misma estructura de la media. Pero hay un parámetro adicional en la regresión binomial negativa que se usa para modelar la sobredispersión. Los intervalos de confianza se consideran más estrechos que la regresión de la pasión cuando la distribución condicional está demasiado dispersa de la variable de resultado.

2. Regresión de Poisson

El método de regresión de Poisson se usa en el modelado de los datos de conteo. Se pueden usar muchas extensiones para modelar las variables de conteo en la regresión de Poisson.

3. Regresión MCO

Los resultados de las variables de conteo a veces se transforman logarítmicamente y luego se analizan mediante el método de regresión OLS. Sin embargo, a veces hay problemas relacionados con el método de regresión OLS. Estos problemas pueden ser la pérdida de datos debido a la generación de cualquier valor indefinido a través de la consideración del registro del valor cero. Además, podría generarse debido a la falta de modelado de los datos dispersos.

4. Modelos sin inflar

Estos tipos de modelos intentan dar cuenta de todos los ceros en exceso en el modelo.

Análisis utilizando la regresión binomial negativa

El comando “nbreg” se utiliza para estimar el modelo de Regresión Binomial Negativa. Hay una "i" antes de la variable "prog". La presencia de “i” indica que la variable es de tipo factorial, es decir, variable categórica. Estos deben incluirse como variables indicadoras en el modelo.

  • La salida del modelo comienza con un registro de iteraciones. Comienza por el ajuste del modelo de Poisson, seguido de un modelo nulo, y luego el modelo del binomio negativo. El método utiliza la estimación de máxima verosimilitud y continúa iterando hasta que hay un cambio en el valor del registro final. La verosimilitud del logaritmo se utiliza para la comparación de los modelos.
  • La siguiente información se encuentra en el archivo de cabecera.
  • Justo debajo del encabezado se encuentra la información de los coeficientes de Regresión Binomial Negativa. Los coeficientes se generan para cada variable junto con los errores, como los valores p, las puntuaciones z. También existe un intervalo de confianza del 95% para todos los coeficientes. El coeficiente de la variable "matemáticas" es -0,006, lo que indica que es estadísticamente significativa. El resultado significa que si hay un aumento en una unidad en la variable "matemáticas", el conteo de registros esperado para el número de días ausentes disminuye en un valor de 0.006. Además, el valor de 2. prog, la variable indicadora, es la diferencia esperada en el recuento de log entre los dos grupos (grupo 2 y grupo de referencia).
  • La estimación del parámetro para la sobredispersión transferida del registro se realiza y luego se muestra con el valor sin transformar. En el modelo de Poisson, el valor es cero.
  • Hay una información de probabilidad de prueba de razón debajo de la tabla de coeficientes. El modelo se puede comprender mejor mediante el uso de los comandos "márgenes".

Proceso de hacer un análisis de regresión binomial negativa en Python

Los paquetes necesarios para llevar a cabo el proceso de regresión deben importarse desde Python. Estos paquetes se enumeran a continuación:

  • importar statsmodels.api como sm
  • importar matplotlib.pyplot como plt
  • importar numpy como np
  • de patsy import dmatrices
  • importar pandas como pd

Consideraciones para la regresión binomial negativa

Hay algunas cosas que deben tenerse en cuenta al aplicar el método de análisis de regresión binomial negativa. Éstos incluyen:

  • Si hay presencia de muestras pequeñas, entonces no se recomienda el método de Regresión Binomial Negativa.
  • A veces hay exceso de ceros presentes que pueden ser la causa de la sobredispersión. Estos ceros pueden generarse debido al proceso de agregar generación de datos. Si ocurre tal tipo de caso, se recomienda utilizar el método del modelo inflado a cero.
  • Si el proceso de generación de datos no considera ningún cero, en tales casos, se recomienda utilizar el método del modelo truncado en cero.
  • Hay una variable de exposición asociada con los datos de conteo. La variable denota las veces que existe la posibilidad de que ocurra el evento. Esta variable es necesaria para ser incorporada al modelo de Regresión Binomial Negativa. Esto se hace a través de la opción de exp().
  • La variable de resultado no puede ser ningún valor negativo en el modelo del análisis de regresión binomial negativa. Además, la variable exposición no puede tener el valor 0.
  • El comando "glm" también se puede utilizar para ejecutar un método de análisis de regresión binomial negativa. Esto se puede hacer a través del enlace de la bitácora y también de la familia de binomios.
  • Se requiere el comando “glm” para obtener los residuales. Esto es para verificar si hay otras suposiciones en el modelo de regresión binomial negativa.
  • Existe la existencia de las diversas medidas de la pseudo-R-cuadrada. Sin embargo, cada medida proporciona información similar a la información proporcionada por el R-cuadrado en la regresión de OLS.

Conclusión

El artículo discutió el tema de la regresión binomial negativa . Hemos visto que es casi similar al método de regresión múltiple y es una forma generalizada de la distribución de Poisson. Hay varias aplicaciones del método. La técnica también se puede aplicar a través del lenguaje de programación python o en R.

También se presentan varios casos de estudio que muestran su aplicación en estudios como el envejecimiento. Además, los modelos clásicos de regresión que se pueden usar en los datos de conteo son la regresión de Poisson, la regresión binomial negativa y la regresión geométrica. Estos métodos pertenecían a la familia de modelos lineales y estaban incluidos en casi todos los paquetes estadísticos como el sistema R.

Si desea sobresalir en el aprendizaje automático y desea explorar el campo de los datos, puede consultar el curso Executive PG Program en Machine Learning & AI ofrecido por upGrad. Entonces, si usted es un profesional en activo que sueña con ser un experto en aprendizaje automático, venga y obtenga la experiencia de capacitarse con expertos. Se pueden obtener más detalles a través de nuestro sitio web. Para cualquier consulta, nuestro equipo puede atenderle con prontitud.

¿Quieres compartir este articulo?

Mejore su carrera en aprendizaje automático e inteligencia artificial

Solicite ahora la certificación ejecutiva en Ai-ml de IIITB